3줄 요약
🤔 본 논문은 기존 Unsupervised Continuous Anomaly Detection (UCAD)의 한계를 극복하기 위해 시각 및 텍스트 정보를 모두 활용하는 새로운 multimodal 프레임워크 제안.
💡 제안된 프레임워크는 지속적인 지식 유지를 위한 Continuous Multimodal Prompt Memory Bank (CMPMB)와 향상된 anomaly segmentation 및 robustness를 위한 Defect-Semantic-Guided Adaptive Fusion Mechanism (DSG-AFM)을 도입
🚀 MVTec AD 및 VisA dataset에 대한 광범위한 실험 결과, 이 접근 방식은 image-level AUROC 및 pixel-level AUPR에서 State-of-the-Art (SOTA) 성능을 달성하며 기존 방법을 크게 능가함을 보여줌.

요약

본 논문은 비지도 연속 이상 감지(Unsupervised Continuous Anomaly Detection, UCAD)를 위한 다중 모달 프롬프트 기반 프레임워크를 제안한다. 기존 UCAD는 주로 시각 정보에만 의존하여 복잡한 환경에서 성능 향상에 한계가 있었고, 비지도 이상 감지(UAD)의 고질적 문제인 catastrophic forgetting과 높은 계산 비용을 동시에 겪었다. 이를 해결하기 위해 논문은 (i) 연속 다중 모달 프롬프트 메모리 뱅크(CMPMB)와 (ii) 결함 의미론 기반 적응형 융합 메커니즘(DSG-AFM)을 핵심 구성요소로 도입한다.
1) Continuous Multimodal Prompt Memory Bank (CMPMB)
CMPMB는 학습 가능한 텍스트 프롬프트와 정제된 시각 프롬프트를 통합해 정상 특징 표현을 점진적으로 개선하고, 평생 지식 유지(lifelong knowledge retention)를 가능하게 한다. CMPMB는 쿼드러플 M=(K,PT,PV,F)로 구성된다.
(a) 작업 식별자 K
각 작업 t에 대해 frozen 사전학습 시각 백본에서 추출한 패치 수준 특징에 Farthest Point Sampling(FPS)을 적용해 작업 식별 정보를 구성한다. 먼저 Kt=fj(x)로 특징을 얻고, 이를 샘플링해 Kt′=FPS(Kt)로 만든다. 전체 메모리의 작업 식별자 집합은 K={Kt1′,Kt2′,…,Ktn′}={FPS(Kt1),FPS(Kt2),…,FPS(Ktn)} 로 정의되며, K∈RNf×C이다.
(b) 학습 가능한 텍스트 프롬프트 PT
CLIP 스타일 템플릿 "a photo of a {CLASS} with [P_T]"를 사용하며, PT∈RNl×C는 학습 가능한 벡터 집합이다. 텍스트 프롬프트는 노이즈 강화 샘플 기반 대조 학습을 통해 MSE 손실로 최적화한다.
LlossT=N1∑i=1N(xi−yi)2
노이즈 생성은 xnoise=NoiseGenerator(x)=x+N(0,σ2)로 수행한다.
(c) 정제된 시각 프롬프트 PV
계층적 정제 시각 프롬프트 PV∈RNv×l×C를 도입하고, 백본의 각 계층 입력에 프롬프트를 삽입한다. 계층 i에서의 입력 갱신은 xi=fi(xi−1+Pi)로 표현된다. 시각 프롬프트는 structured contrastive loss로 최적화한다.
LposV=∑i,p=1H,W∑j,q=1cos(Fij,Gpq),(Fij=Gpq)
LnegV=∑i,p=1H,W∑j,q=1cos(Fij,Gpq),(Fij=Gpq)
LlossV=λαLnegV−λβLposV
(d) 정상 특징 라이브러리 F
Coreset Sampling(CSS)으로 패치 특징을 압축하여 정상 특징 라이브러리를 구축한다.
F={Ft1′,Ft2′,…,Ftn′}={CSS(Ft1),CSS(Ft2),…,CSS(Ftn)}
2) Defect-Semantic-Guided Adaptive Fusion Mechanism (DSG-AFM)
DSG-AFM은 적응형 정규화 모듈(ANM)과 동적 융합 전략(DFS)을 결합해 감지 정확도와 견고성을 강화한다.
(a) 시각 브랜치(Visual branch)
사전학습 ViT의 5번째 계층 특징으로 시각 특징을 추출하고, CMPMB의 정상 특징 라이브러리와 K-NN 매칭으로 패치 수준 이상 점수 SV를 계산한다.
(b) 텍스트 브랜치(Text branch)
텍스트 인코더의 의미론 특징 FT와 시각 특징 FV를 이용해 cross-modal cosine similarity로 텍스트 안내 이상 점수 ST를 계산한다.
(c) 적응형 정규화 모듈(ANM)
이상 점수의 변별력을 높이기 위해 sigmoid 기반 동적 정규화를 적용한다.
σ(x)=1+e−k(x−bnew)1
여기서 k는 1.5로 고정하고, bnew는 그리디 탐색으로 업데이트한다. 예를 들어 bnew=argmaxb∈{bold+δ}P(b) 형태로 최적화하여 이상 영역의 반응 차이를 확대한다.
(d) 동적 융합 전략(DFS)
SV와 ST를 bilinear interpolation으로 224×224로 업샘플링해 이상 점수 맵 MV, MT를 얻고, 최종 이상 점수 맵 Mfinal=α⋅MV+(1−α)⋅MT 로 결합한다. 여기서 α는 두 맵의 기여도를 조절하는 하이퍼파라미터이다.
실험 및 결론(요약)
실험은 MVTec AD 및 VisA에서 수행되었고, 이미지 수준 AUROC 및 픽셀 수준 AUPR에서 SOTA 성능을 달성한다. 특히 기존 UCAD 대비 MVTec AD에서 이미지 AUROC가 +4.4%, 픽셀 AUPR이 +14.8% 향상되었다. Ablation을 통해 CMPMB, DSG-AFM, 텍스트 프롬프트, ANM 각각이 성능 향상에 기여함을 확인한다.