
✅ 요약 :
학습 과정 없이, 소수 정상 샘플만으로 구성 요소 분할→패치 매칭→그래프 모델링의 3단계로 이상을 다각도로 평가하여, 다양한 도메인에 적용 가능한 범용 Few-shot VAD 솔루션을 제공
- 목표 :
- 훈련 불필요(Training‑free), 도메인 통합(Universal), Few‑shot 이상 탐지 기법 제시
- 산업·의료·논리 등 서로 다른 분야의 데이터에 단일 모델로 대응하고, 사전 학습 없이도 몇 장의 정상 샘플만으로 새로운 객체의 이상을 탐지
- 입력 및 출력:
- 입력: 쿼리 이미지 와 K장의 정상 참조 이미지
- 출력: 픽셀 단위 이상 점수 맵 및 전체 이미지 이상 점수
- 핵심 처리 흐름:
- Contextual Component Clustering (C3)
- SAM(또는 유사 모델)으로 얻은 초기 마스크를
- 정상 샘플의 특징 클러스터링과 IoU 기반 필터링으로 정제하여
- 구성 요소(컴포넌트) 단위로 분할
- Component‑Aware Patch Matching (CAPM)
- 각 컴포넌트를 작은 패치로 세분화하고
- 정상 샘플 패치와의 코사인 유사도, 컴포넌트 제약 매칭, 이미지‑텍스트 매칭을 결합해
- 구조적 이상 점수 산출
- Graph‑Enhanced Component Modeling (GECM)
- 분할된 컴포넌트들을 그래프 노드로 보고
- 노드 임베딩 간 어텐션 기반 유사도, 크기·위치·색상 등의 지오메트릭 정보를 활용해
- 논리적 이상 점수 산출
- 점수 통합 및 이상 판단
- 구조적 이상 점수와 논리적 이상 점수를 가중 합산하여
- 픽셀 단위의 이상 맵과 이미지 전체의 이상 점수를 결정

이를 위해, 컴포넌트 분할→패치 매칭→그래프 모델링의 3단계 모듈로 이상 신호를 다각도로 통합 평가하는 UniVAD 프레임워크를 제안함.
1) 카테고리‑별 전통 VAD
2) 도메인 일반화·도메인 적응 기반 VAD
3) 소수샷 VAD / 제로샷 VAD
예를 들어 One-for-All Few-Shot Anomaly Detection via Instance-Induced Prompt Learning (ICLR 2025)는 인코더(비전·언어 백본)는 사전학습된(Pre-trained) CLIP/BLIP 스타일 모델을 그대로 가져다 씀. 그리고 인스턴스 유도 프롬프트 생성기가 도메인 레이어라고 이해할 수 있음.
- 기존 백본의 일반적 표현력은 그대로 유지
- 특정 도메인·샘플(few-shot)에서 필요한 정보만 추가로 학습
- 결국 논문에서는 별도의 도메인 레이어(adapter)가 사전학습된 고정된 백본 위에 얹혀 있다고 보면 됨
4) 훈련 불필요(Training‑free) 접근
차별점: UniVAD는 어떠한 파인튜닝·추가 학습 없이, “소수의 정상 샘플”만으로 구성 요소 분할→패치 매칭→관계 그래프 분석을 일사불란하게 수행해 범용 VAD를 실현

전체흐름:
A[쿼리 이미지 + K 정상 샘플] --> B[C3: 컴포넌트 분할]
B --> C[CAPM: 구조적 이상 점수]
B --> D[GECM: 논리적 이상 점수]
C & D --> E[이상 점수 통합 → 결과 출력]

패치 생성: C3가 분할한 각 컴포넌트 영역을 고정 크기 패치로 재세분화
구조 매칭


이미지‑텍스트 매칭: Visual‑Language 특징 매핑을 추가해 클래스 지식 활용

구조적 이상 점수: 세 가지 점수를 가중 평균해 최종 구조 점수 산출

그래프 구성: 컴포넌트별 특징을 노드로, 유사도를 엣지 가중치로 설정

어텐션 기반 임베딩: 그래프 어텐션 네트워크(GAT)로 노드 임베딩 계산

지오메트릭 정보: 크기·위치·색상 등 정형 특성도 노드에 부가


논리적 이상 점수: 어텐션 임베딩 거리와 지오메트릭 차이를 결합해 산출

최종 이상 점수

C3 단독 vs GECM 단독 vs CAPM 단독


전체 모듈 통합 시 가장 큰 성능 향상(벤치마크 평균 +6.2% Image‑AUC) 확인
왜 지오메트릭 특성 벡터 생성할때 단순 컨캣하는 방향으로 하나?