Complementary Pseudo Multimodal Feature (CPMF)을 통해 3D 포인트 클라우드 데이터의 이상 탐지를 위한 새로운 접근 방식을 제안하는 논문이다.
Multimodal 데이터 통합
3D 수작업은 local 구조를 정밀하게 나타낼 수 있지만 global 의미 정보를 설명하기엔 부족하다는 점을 보완하기 위해 2D pre-trained network의 global 의미 정보를 결합함.
Multi-view 이미지 변환 및 정렬
3D 데이터를 다양한 각도에서 multi-view 2D 이미지로 렌더링 시키고, 각 뷰에서 추출된 특징을 3D 공간으로 다시 정렬하여 집계함.
이상 탐지 성능 향상
위 과정을 통해 local 및 global 정보를 모두 포함하는 CPMF 특징을 patchCore 기반 메모리 뱅크 방식과 결합하여 이상 탐지 성능을 대폭 향상시킴.
3D 포인트 클라우드는 real-world의 기하학적 정보를 정밀하게 캡쳐하는 데이터 형태임.
기계 공학의 발전과 함께 3D 수집 센서의 발달이 이뤄졌고, 3D 데이터의 중요성 또한 커지고 있음.
3D 포인트 클라우드 이상 탐지는 3D 구조에서 이상 패턴을 감지하는 task로, 산업에서 비전 검사와 같은 분야에서 중요한 역할을 수행함.
기존 이상 탐지 방법은 이미지 및 그래프 기반으로 잘 연구되어 왔지만, 3D 포이트 클라우드에서는 특징 학습의 한계가 있어 여전히 도전 과제로 남아있음.
특히, 기존의 3D 특징 추출 방법은 도메인 간 분포 차이로 인해 transfer learning 학습 능력이 낮다는 문제가 존재함.
수작업으로 생성된 3D 특징은 local의 기하학적 정보를 잘 표현하지만, global semantic information을 포함하지 못해 성능이 제한적임.
local 기하학적 정보와 global semantic 정보를 결합하여 포인트 클라우드의 이상 탐지 성능을 향상하는 새로운 접근 방식을 제안함.

수작업으로 생성된 3D 기하학적 특징과 2D pre-trained network에서 추출한 global semantic 특징을 통합하여 포인트 클라우드의 이상 탐지 성능을 향상시킴.
3D 포인트 클라우드를 multi-view 2D 이미지로 변환 후, 2D 신경망을 통해 의미 정보를 추출하고, 이를 3D 공간으로 다시 매핑하여 통합함.
이를 통해 MVTec3D 및 Real3D 데이터셋에서 기존 방법들보다 높은 AUROC(95.15%) 성능을 기록하며, local 및 global 정보를 통합한 새로운 접근 방식임을 보임.
1. 2D 이미지 이상 탐지
초기 연구는 정상 데이터만을 사용하여 이상 탐지를 학습하는 방식으로 시작되었음.
pre-trained 2D network의 표현 능력을 활용하는 방법이 도입되며, 성능이 크게 향상됨.
대표 방법:
Knowledge Distillation
pre-trained network(teacher network)로 정상 패턴을 학습한 후, 표현 능력을 student network에 distillation 시켜 이상 데이터를 식별
Memory Bank
대표적인 정상 데이터의 특징을 저장하고, 테스트 데이터와의 거리(유사도) 계산으로 이상 여부를 판단
Flow-based Model
정상 데이터 분포를 직접 모델링하여 이상 탐지
2. 3D 포인트 클라우드 이상 탐지
3D 데이터셋의 크기가 작아 기존 2D 이미지 데이터셋에 비해 학습 기반 모델의 transfer learning 능력이 제한적임.
기존 방법:
MVTec3D와 Real3D 데이터셋이 발표되면서, 3D 이상 탐지 연구가 활발해짐.
초기 방법은 3D 포인트 클라우드를 재구성하는 방법으로 이상을 탐지.
이후, self-supervised learning 기반의 특징 추출기가 도입되면서 성능이 개선됨.
문제점:
기존 특징 추출 방법은 global semantic information을 캡쳐하지 못하고, 수작업으로 생성된 3D 특징은 local 정보에만 초점이 맞춰져 있음.
3. 포인트 클라우드 특징 학습:
초기에는 수작업으로 생성한 특징(FPFH 등)이 사용되었으나, PointNet과 같은 학습 기반 방법론이 등장하면서 포인트 클라우드 데이터에서 특징을 학습하는 방식이 발전함.
이후, 포인트 클라우드를 multi-view 이미지로 변환하여, 2D CNN을 활용해 특징을 추출하는 접근 방식도 제안됨
CPMF는 기존 방법론들의 한계점을 뛰어넘기 위해, 3D의 로컬 기하학적 특징과 2D의 글로벌 의미적 특징을 결합하는 새로운 접근법을 제안함.
CPMF는 multi-view 렌더링, 2D-3D 정렬, 특징 정규화 및 결합, 메모리 뱅크 기반 이상 탐지 등의 과정을 거침.

3D 포인트 클라우드 데이터는 모델의 입력 데이터로 사용되며, 각 포인트 별 이상 탐지 수행 대상임.
는 총 개의 3D 포인트로 구성됨.

: 3D 공간 상의 한 포인트
: 포인트 클라우드 내 총 포인트 개수
FPFH(Fast Point Feature Histogram) 등의 3D 수작업 특징 추출기를 사용하여 로컬 기하학적 정보를 추출

: 각 포인트의 3D 특징 벡터
: 3D 특징 벡터의 차원


: 번째 뷰에서의 렌더링된 2D 이미지
: 3D 데이터를 2D로 변환하는 렌더링 함수
: 카메라 파라미터 (뷰 포인트 설정)
3D 회전을 통한 렌더링은 아래와 같이 수행됨.

위 수식은 3D 포인트 를 특정 뷰 에서의 2D 이미지 좌표 로 변환하는 과정임.
: 내부 카메라 행렬 (Intrinsic Matrix)
: 외부 카메라 행렬 (Extrinsic Matrix)
: 포인트의 깊이(depth) 정보

위 행렬과 같이 3D 포인트를 각 축에 대해서 회전시킴.

각 값은 회전 각도를 나타냄.
렌더링된 2D 이미지를 pre-trained network(ResNet18 등)에 입력하여 특징을 추출함.
3D 포인트와 2D 특징을 매핑하여, 2D 특징을 3D 포인트 별로 정렬

: 2D 이미지에서 추출된 특징 맵
: 3D 포인트 가 2D 이미지 에서의 위치

위와 같이 각 차원의 특징을 정규화 한 후, 각 특징을 로 병합함.
전반적인 알고리즘은 아래와 같이 나타낼 수 있음.

PatchCore 기반 메모리 뱅크 기법을 사용하여 이상 탐지 수행.
정상 데이터를 메모리 뱅크에 저장 후, 테스트 데이터와 비교.

: 학습된 정상 데이터의 특징 벡터 집합

: 포인트 의 이상 점수
: 객체(object) 수준의 이상 점수
MVTec 3D
MVTec 3D는 3D 포인트 클라우드 기반 이상 탐지를 위한 벤치마크 데이터셋임.
다양한 종류의 정상 샘플과 이상 샘플을 포함.
10개의 객체 클래스를 포함하며, 각 클래스는 다른 기하학적 구조와 결함(이상)을 가짐.
Real3D
Real3D는 실제 환경에서 캡쳐된 3D 데이터로 구성된 데이터셋임.
이상 탐지의 복잡성을 평가하기 위해 사용

CPMF는 MVTec 3D 데이터셋에서 95.15%의 AUROC를 기록하며, 기존 방법론들보다 더 높은 성능을 보임.


CPMF는 로컬 3D 정보 + 글로벌 2D 정보를 결합함으로써 이 두 접근법의 장점을 모두 결합.
또한, 10개 객체 클래스에서 일관되게 높은 성능을 보였으며, 특히 복잡한 구조를 가진 클래스에 대해서는 3D+2D 정보를 동시에 활용하기 때문에 이상 탐지가 효과적임을 알 수 있음.

CPMF는 Real3D 데이터셋에서도 기존 방법론들을 능가하는 성능을 보임.
Real3D는 real-world 데이터로 구성되어 있어, 데이터의 noise와 구조적 복잡성이 더 높음에도 불구하고 CPMF는 안정적인 성능을 유지함. (2D CNN의 transfer 능력이 적극 활용됐음을 알 수 있음)


3D 특징과 2D 특징을 단독으로 사용했을 때와 CPMF를 사용해서 두 특징을 결합했을 때의 이상 탐지 성능 비교를 진행함.
3D 특징 단독 사용
로컬 기하학적 정보를 반영하므로 기하학적 이상 탐지에 효과적임
그러나 global semantic 정보 부족으로 전체에 대한 성능 평가는 낮음
2D 특징 단독 사용
pre-trained 2D network를 사용하여 전역적 의미 정보를 포착
그러나 포인트 클라우드의 구조적 세부 정보(복잡한 표면 구조 등)을 충분히 다루지 못함.
CPMF는 3D 정보와 2D 정보의 상호 보완적 관계를 잘 반영하여 작은 결함이나 구조적 이상을 잘 탐지하고, 복잡한 객체의 전역적 이상 탐지도 제대로 수행함.

CPMF는 렌더링 뷰의 수에 따라 성능이 달라짐.
4개일 때에 성능이 최적화되며, 2개는 정보 부족, 4개 이상은 계산 비용 증가에 비해 추가 성능 개선은 미미하다는 단점이 존재함.
메모리 뱅크의 크기는 정상 데이터의 포인트 수에 따라 결정됨.
또한, 메모리 크기가 크면 계산 비용은 당연히 증가하지만, CPMF는 특징 정규화 및 병합 과정을 통해 계산 효율성을 유지하며, NN(최근접 이웃) Search 방식으로 신속한 이상 탐지를 수행할 수 있다고 함.
CPMF는 MVTec 3D와 Real3D 데이터셋에서 기존 방법을 능가하는 성능을 보여줌.
이는 2D와 3D 특징을 결합하여 각각의 맹점을 상호 보완할 수 있도록 설계했기 때문이며, 이를 통해 복잡한 이상 탐지 문제에서 높은 성능을 보임.
또한, 메모리 뱅크 기반 탐지로 계산 리소스를 절약할 수 있음.
이러한 CPMF의 특징은 실제 산업 환경에서 이상 탐지 응용 프로그램의 강력한 후보 모델로 적용될 수 있고, Multi-modal 접근 방식은 3D 이상 탐지 문제를 해결하는데 중요한 역할을 할 수 있음.
CPMF의 multi-view 렌더링과 메모리 뱅크의 크기가 커질 경우, 실시간 이상 탐지 응용에서의 계산 비용을 최적화할 수 있나?
특정 환경에 따라 2D와 3D의 기여도를 다르게 해야할 수도 있을 것 같은데, CPMF에서 2D와 3D 특징의 상대적 중요도를 상황별로 조정할 수 있는 매커니즘(learnable 가중치 등)이 존재하나?