https://arxiv.org/pdf/2401.16402
Visual Anomaly Detection (VAD)는 visual data에서 normality(정상성)의 개념에서 벗어나는 편차를 찾는 것을 목표로 한다. 본 논문에서는 VAD의 최근 발전을 종합적으로 검토하여, 세 가지 주요 도전 과제를 식별한다.
이러한 도전 과제들을 해결하기 위한 배경 및 최근 연구 트렌드를 2,3절에서 다루고, 4절에서는 잠재력 있고 급 부상 중인 future research directions에 대해 다룰 예정.
본 섹션에서는 VAD의 배경을 간략히 살펴보고, 개념적 정의와 VAD에 대한 일반적인 공식을 포함. 그리고 주요 datasets와 metrics를 살펴보고, 이와 관련된 연구들을 소개
특히, VAD는 산업 분야에서 상당한 발전을 이룸. 분야에 따른 방법론의 차이에도 VAD에 대한 기본적인 원칙은 상당한 일관성을 보여주고, 이에 따라 결과적으로 본 survey에서는 산업 시나리오 내의 VAD에 전략적으로 초점을 두어 대표 사례로 삼아서 전체 VAD에 대한 세심하고 철저한 검토를 제공하고자 함.
산업 시나리오 내의 semantic anomalies는 주로 relation-level에서 나타나며, 이를 도전 과제로 점점 더 많은 주목을 받고 있음
VAD의 최근 발전은 MVTec-AD, MVTec-3D, MVTec-LOCO, VisA 등 여러 데이터 셋의 영향을 크게 받고 있고, 이러한 데이터 셋이 제공하는 예측 확률 분포와 실제 확률 분포 간의 alignment(정합성)은 VAD의 성능을 평가할 수 있음.
이를 위한 다양한 Metrics이 사용되며, Area Under the Receive Operating Characteristic curve (AUROC), Area Under the Per-Region-Overlap curve (AUPRO)등이 사용됨.
VAD의 최근 발전은 특히 structural anomalies가 있는 2D 데이터에 맞춰져 이루어졌고, 위 그림을 통해 Unsupervised 방식의 우세함도 확인 가능. 특히 MVTec AD, MVTec 3D, MVTec LOCO와 같은 milestones의 영향을 받아 앞서 언급된 세 가지 도전 과제를 다루는 sub-setting들이 유망한 발전을 많이 보여주었음.
그리고 본 survey는 논문은 위 표에서 강조된 바와 같이 이전에 작성된 survey들 보다 신흥 트렌드에 대한 검토를 더 많이 포괄하고, 종합적인 탐구를 수행하였음.
본 섹션에서는 앞서 언급한 세 가지 관점에 대한 이전 방법론 및 그 예시들을 검토
실제 시나리오에서 데이터의 부족이라는 도전에 직면하여, 다양한 VAD 작업은 정상 및 비정상 샘플의 수를 다양하게 고려.
Semi-supervised VAD는 학습 중 정상 샘플과, 매우 적은 양의 비정상 샘플을 모두 활용하는 것을 목표로 함. 하지만 이렇게 소수의 이상 샘플에 집중하게 되면 과적합이 발생하여 일반화가 힘들다. 이를 극복하기 위해 진행 된 연구들은 아래와 같다.
PRN (2023)
BiaS (2023)
→ 요약하자면, 다양한 pseudo anomalies를 도입하거나 seen anomalies를 통합하여 정상 샘플에 대한 설명 경계를 최적화함으로써 seen anomalies에 대한 과적합을 방지
Unsupervised VAD는 특정 카테고리에 대해 정상 샘플만으로 학습된 이상을 식별하는 데 초점을 둔다. 주된 목표는 정상 feature의 분포를 모델링하는 것으로, 일반적으로 feature extraction과 distribution modeling이라는 두 개의 하위 단계를 포함한다.
최근 발전은 주로 ResNet과 같은 사전 학습된 신경망을 feature extraction에 활용하고, distribution modeling을 위한 주요 네 가지 방법은 memory bank, reconstruction, knowledge distillation, flow-based methods로 나뉜다.
Memory bank-based methods
Reconstruction-based methods
Distillation-based methods
Flow-based methods
→ 그러나 위에서 언급한 VAD 방법들은 부정확한 boundary descriptions로 인해 비정상에 대한 anomaly scores가 예상 외로 낮아지는 경우가 발생하는데, 이를 over-generalization(과도한 일반화)이라고 한다.
이를 완화하기 위해서 DRAEM(2021), MRKD(2023), DAF(2023)같은 일부 방법들은 synthetic anomalies(합성 이상)을 도입하여, 정상 특징 분포를 회귀하는 것 뿐 아니라 synthetic anomalies에 대해 상당한 회귀 오류를 생성하도록 한다.
MemKD(2023)은 명시적으로 memory bank를 저장함으로써 과도한 일반화 문제를 해결하여 출력이 정상 특징만을 나타내도록 보장한다.
TFA-Net(2024)는 정상 template에 의해 명시적으로 가이드되어 정상 특징을 복원하는 방법을 제안하는데, 이는 비정상 input을 받았을 때 상당한 regression 오류를 낸다.
Few-shot VAD는 제한된 양의 정상 데이터로 모델을 학습 시키는 데 초점을 맞춘다. 이러한 소수의 정상 샘플은 전체 정상 샘플을 충분히 대표하지 못할 수 있고, 따라서 모델은 관찰된 정상 샘플로부터 학습하여 description boundary를 설정하여 unseen 정상 샘플의 분포를 잘 설명하면서 동시에 비정상 샘플의 분포는 배제해야 하는, 매우 도전적인 과제이다.
따라서 해당 task를 수행하는 방법들은 주로 feature descriptiveness를 강화하는 데 초점을 두며, 사용 가능한 few-shot sample들을 더욱 representative한 subset으로 만들고자 한다.
→ 요약하면, 주된 few-shot VAD 방법들은 일반적으로 샘플의 정렬(alignement)에 의존하여 특징 묘사력을 늘리고, 관찰된(seen) 정상 샘플이 전체 정상 샘플 집합을 더 잘 대표할 수 있도록 한다.
Zero-shot VAD는 참조할 만한 정상 샘플에 의존하지 않고 다양한 도메인에서 이상을 탐지하기 위한 통합 모델을 개발하는 것을 목표로 한다. 이는 다 용도성 측면에서 큰 잠재력을 갖지만, 대상 도메인과 관련된 구체적인 사전 정보가 없기 때문에 도전적이다. 기존 zero-shot 방법들은 외부 지식을 통합하여 이상 탐지 능력을 강화한다.
→ 요약하면, 이러한 zero-shot 방법들은 CLIP과 같은 기존 VLM에서 얻은 외부 지식을 활용하여 임의의 카테고리에서 이상 탐지를 수행.
본 3.1절에서는 샘플 수의 관점에서 논의된 방법들을 소개하였다. Semi-supervised 방식에서 zero-shot 방식으로 전환됨에 따라 성능이 저하되는 것을 확인할 수 있는데, 샘플이 충분할 땐 성능이 이미 다양한 최근 모델에서 포화 상태에 달했지만, few-shot 및 zero-shot에서는 여전히 개선의 여지가 있다.
해당 섹션에서는 data modality 측면에서의 VAD를 분류
MVTec-AD, VisA 같은 데이터셋은 정상/비정상 데이터를 포함하는 광범위한 데이터 셋을 구축하여 RGB 이미지에 대한 VAD의 발전을 촉진시켰다. 하지만 해당 데이터셋들은 일반적으로 완벽하게 alignment된 객체와 최적의 조명을 갖춘 이상적인 촬영 상황임을 가정한다. 따라서 아래와 같은 각각의 데이터 셋 또한 도입되었다.
→ 요약하면, 기존엔 RGB 이미지에 대해 이상적인 촬영 환경을 갖춘 데이터를 대상으로 많은 연구가 진행되었고, 최근엔 비이상적인 조명과 같은 요인을 고려하여 실제 촬영 환경에서 RGB 이미지에 대한 VAD를 탐구하는 데 초점을 맞추고 있다.
기하학적 정보는 종종 point clouds와 같은 3D data로 표현되며, 이는 visual entities의 크기와 모양을 직접적으로 나타낸다.
Point clouds VAD를 위해 설계된 데이터 셋은 MVTec 3D(2022) 와 Real 3D(2023) 가 있다. 이는 고해상도 data clouds를 포함하여 미세한 기하학적 편차를 식별하는 데 도움을 준다. 이 또한 2D image처럼 feature extration과 distribution modeling의 두 steps로 범주화될수 있지만, 기존 이미지 도메인에 반해 cloud points는 사전 학습 모델로 feature extraction을 수행하는 것에 대한 견고함이 부족하다.
→ 요약하면, 3D point clouds는 RGB 이미지에 대한 풍부한 기존 사전 학습 모델들이 존재하는 것과 달리 이에 대한 견고한 모델이 제한적이다.
특정 시나리오에서는 multi modality 데이터를 활용하면 VAD의 포괄성이 향상된다. 예를 들어, 3D와 RGB가 공존하는 경우가 있다. 일부 연구들은 이러한 modality에서 나온 representations를 융합하기 위해 설계되었다.
→ 하지만 위 방법들은 사전 학습된 network에 크게 의존하며, 특히 point clouds network의 맥락에서 견고성이 부족할 수 있다.
→ 본질적으로, multi-modality를 위한 위 방법들은 일반적으로 여러 modality에 걸친 표현의 학습과 융합을 강화하는 데 집중한다.
3.2절에서는 data modality의 측면에서 논의된 방법들을 소개하였다.
VAD를 위한 data modality는 타깃 시나리오에 따라 다양성을 보일 수 있고, 이 중 RGB와 3D가 가장 주도적이고 광범위하게 탐구되고 있다. RGB 데이터에 대한 기존 사전 학습된 모델들 덕에 2D VAD는 상당한 진전이 있었으나, 다른 modality(e.g. 3D)에 대한 사전 학습 모델의 부족으로 위 표처럼 해결해야 할 숙제로 남아있다. 또한, 여러 modality를 활용하면 real-world 정보를 더 포괄적으로 수집할 수 있고, 이는 성능 향상으로 이어질 수 있음을 보여준다.
Anomalies의 계층에 기반하여 VAD는 structural anomaly, semantic anomaly 두 가지로 분류될 수 있다.
Structural anomaly는 흠집, 왜곡된 모양 등과 같은 local structural deviations를 의미한다. 최근 몇 년간 이를 위해 맞춤화 된 VAD 방법 연구가 활발했고, 이러한 방법들은 visual entities 내의 local한 모든 구조 패턴을 포괄적으로 설명하는 fine-grained features를 학습하는 것을 목표로 한다. 사실 위에서 언급했던 거의 모든 방법들이 이에 해당한다.
개별 visual entities에서 발생하는 structural anomaly와 달리, semantic anomalies는 frame 내 여러 entity 간의 관계에서 발생한다. 이러한 연구를 발전시키기 위해 MVTec-LOCO같은 데이터 셋이 도입되었고, 이러한 데이터 셋은 일반적으로 여러 visual entities가 동시에 나타나는 경우를 포함하며, 그들의 관계에서 발생하는 비정상성을 탐지해야 한다.
한 연구 방향은 global information이 entities 간 관계를 암묵적으로 포착할 수 있다는 것을 가정한다.
한 편, 일부 방법은 entity 간의 관계를 명시적으로 모델링하는 데 초점을 맞춘다.
→ 요약하면, semantic anomaly를 다루는 기존 방법들은 global context를 이해함으로써 암묵적으로 entity 간 관계에 대한 이해를 구축하거나, entity 간 관계를 추출함으로써 명시적으로 이를 수행한다.
3.3절에서는 anomaly hierarchy의 측면에서 논의된 방법들을 소개하였다. Anomaly는 다양한 계층적 수준에서 나타날 수 있고, 초기 시도는 주로 structural VAD를 위해 local context를 모델링하는 데 초점을 맞추었지만, 점차 의미적 VAD의 인기가 높아져 visual entities 간의 비정상적인 관계를 모델링하는 데 초점을 두고 있다. 하지만 아직 현재 방법들, 특히 명시적인 방법들은 entity의 수, 위치 등과 관련된 복잡한 관계에서 이를 이해하는 능력이 부족하고, 암묵적인 방법들은 global context를 통해 비정상적인 관계를 정확히 식별하는 데 부족할 수 있다. 현재까지의 결과는 ComAD, PSAD와 같은 명시적 방법이 GLCF, EfficientAD같은 암묵적 방법보다는 효과적이지만, 여전히 entity extraction과 relation modeling은 개선의 여지가 있다.
앞서 언급한 주요 관점 외에도 탐구할 가치가 있는 다양한 설정들이 있다.
실제 응용에서 학습 샘플의 label에 오류가 포함될 수 있다고 가정하며, 이는 기존 VAD 방법의 효율성에 영향을 미칠 수 있다.
점진적으로 접근 가능한 새로운 데이터를 활용하여 VAD 모델을 개선하는데, 이렇게 새로운 데이터를 활용하여 직접적으로 업데이트를 진행하면 catastrophic forgetting이 발생할 수 있고, 상당한 계산 부담을 초래할 수 있다는 점을 극복해야 한다.
다양한 카테고리에 대해 통합된 VAD 모델을 구축하는 것을 목표로 한다. Zero-shot VAD가 target 카테고리의 데이터 없이 작동하는 것과 달리, uniformed VAD는 특정 범주의 샘플을 효과적으로 활용하는 데 초점을 맞춘다.
최근 문헌은 다양한 시나리오에서 접근 가능한 샘플의 다양성으로 인해 서로 다른 샘플 수에 따라 VAD를 개발하는 데 초점을 맞추고 있다. 앞으로는 다른 샘플 수를 수용할 수 있는 generic VAD framework를 구축하는 방향으로 나아갈 수 있다.
최근 GPT4-V(ision)과 SAM과 같은 foundation models는 뛰어난 일반화 능력을 보이며, 다양한 샘플 수에 따라 확장 가능한 성능을 입증하였다. 이러한 foundation models는 VAD에서도 어느정도 효과를 보이고 있다.
또한, prompt learning과 같은 기술은 foundation model의 성능을 더욱 향상시킬 수 있다.
그리고, 애초에 VAD에 특화된 foundation models를 학습시키는 것은 더 유망한 VAD의 성능을 가져올 수 있는데, 대조학습(contrastive learning)이나 순차 모델링(sequential modeling)같은 다양한 사전 학습 방식이 탐구 될 수 있다.
대규모 데이터의 가용성은 VAD를 위한 foundation models를 구축하는 데 매우 중요하다. 이를 위해 시각 데이터 수집의 실질적인 개선이 필요하다.
여기서 이상 생성(anomaly generation)은 이에 크게 기여할 수 있을 듯 한데, DFMGAN (2023) 이나 AnomalyDiffusion (2023) 등이 있었지만 일반화 능력이 좋지는 않았고, ControlNet(2023)과 같은 방법은 강력한 일반화 능력과, 생성 과정에 대한 세밀한 제어를 입증하였다.
Multi-modal 데이터는 visual entity의 정보를 포괄적으로 포함할 수 있어 VAD의 성능을 향상시킬 수 있다. 앞으로는 joint imaging parameter optimization과 multimodal learning에 더 많은 관심을 가질 수 있다.
기존의 VAD 데이터 셋은 이상적인 촬영 상황을 조건으로 하지만, 실제로 촬영 매개변수가 일관적이지 않은 real-world 시나리오에서는 도전적이다. Eyecandies (2022)와 PAD (2023)에서는 촬영 매개변수의 영향을 탐구했지만, 이러한 촬영 과정을 최적화하는 데 있어서 포괄적인 분석은 아직 부족하다. Auto-exposure, auto-focus 등과 같은 측면을 포함하여 촬영 매개변수를 자동으로 최적화하려는 노력이 필요하다.
VAD에서 효과적인 representations은 매우 중요하며, 이는 multi modal data에서 특히 그렇다. 이러한 다양한 modality 간 효과적인 융합을 달성하는 것은 신뢰 가능한 VAD에 있어서 필수적이다. 다른 분야에서의 modality 융합과는 달리, VAD의 기존 통합 방법은 feature concatenation처럼 상대적으로 단순하고, 실제 응용에서 VAD를 위해 여러 modality를 고려할 때 multi-modal data를 효과적으로 통합하는 아키텍처를 구축하는 것이 유망하다.
Structural VAD가 좋은 성능을 보여주고 있음에도 불구하고, semantic anomaly를 탐지하는 것 또한 실용적인 VAD 시스템에 있어서 매우 중요하다. 더 넓은 관점에서, VAD 시스템은 이상을 식별할 뿐 아니라 하위 프로세스와의 연결을 구축하여 전체 성능을 개선해야 한다.
Semantic anomaly는 구조적 표현을 요구하는 structural anomaly와 달리, VAD 모델이 entity 간의 관계를 진정으로 이해할 것을 요구한다. 이전까지 제안된 방법들은 합리적인 semantic VAD 성능을 보여주지만, 여전히 entity 간의 정상적인 관계를 진정으로 이해하는 데엔 부족하다. GPT-4V (2023)과 같은 foundation models는 이러한 논리적 추론을 보여주며, entity 간의 정상적인 관계에 대한 진정한 이해를 보여준다. 앞으로 이러한 foundation models를 semantic VAD에 통합하는 것이 유망할 것으로 보인다.
VAD는 상호 연결된 시스템, 특히 품질 검사 파이프라인에서 중요한 역할을 한다. 하지만 현재 연구는 독립된 인식 단계를 강화하는 데만 초점을 두고, downstream 통합과 영향은 무시하고 있다.
효과적으로 최적화를 하기 위해서 VAD는 더 넓은 시스템 workflow에 통합되어야 한다. VAD가 다른 구성 요소들과 어떻게 상호작용하고 있는지, 잠재적인 feedback loop를 필요한 포괄적인 이해가 필요하다. 최근 연구는 VAD의 결과를 로봇 내비게이션, 제조 프로세스와 같은 목표에 통합함으로써 이 방향으로 탐구를 시작하였다.