[논문리뷰]Fast and Interpretable Face Identification for Out-Of-Distribution Data Using Vision Transformers

윤정윤·2025년 2월 24일

Abstract

대부분의 얼굴인식 기법은 Siamese 신경망을 사용하여 두 이미지를 이미지 임베딩 수준에서 비교하는 방식. 하지만 이러한 방식은 occlusion과 분포 외 데이터(out-of-distribution data, OOD)에서 성능이 낮음
OOD에서 성능이 낮은 것을 극복하기 위해 DeepFace-EMD라는 모델이 제시되었는데 이미지를 전체 수준에서 비교하고 패치수준에서 한번 더 비교함. 그러나 패치수준의 비교는 복잡도가 O(n3logn)O(n^3\log n) 인 패치 단위의 비교 과정에서 최적 수송(Optimal Transport) 최적화를 사용해서 비용이 매우 큼
따라서 본 논문에서는 크로스 어텐션을 사용하여 두 이미지 패치를 비교하는 새로운 ViT를 제시. CASIA webface의 200만 개 데이터셋을 학습 후 성능은 DeepFace-EMD와 비슷하지만 속도는 2배이상 빠름. 또한 크로스 어텐션 시각화를 통해 모델이 설명하능함에 있어 이점이 있음

1. Introduction

face identification(FI)은 빠르고 성능 높은 얼굴 인식 시스템(FI systems)이 필수적이며 실시간 데이터 처리 및 분석을 할 수 있어야 함. 또한 FI는 이상적인 환경에서는 높은 성능을 보이나 OOD데이터서는 성능이 크게 저하됨. LFW데이터셋에서 마스크를 착용한 쿼리의 얼굴이 등장하면 정확도는 40%도 안됨

FI에서 해결해야할 2가지 문제는
1) OOD환경에서 빠른 얼굴 인식 필요
2) End 유저에게 FI의 결과를 어떻게 설명할 것인지

본 연구는 FI를 위해 두개의 입력 이미지간 크로스 어텐션을 지원하는 ViT를 제시하고
이를 3가지 기준(OOD에서 정확도, 연산 복잡도, 설명 가능성)을 ViT, CNN, EMD기반 재평가 방식차원에서 비교

우리의 크로스 어텐션 기반 2 입력이미지 Hybrid-ViT모델은 re-ranking 접근에 있어 효과적임. OOD데이터에 있어서 CNN기반이나 1 입력이미지 ViT보다 성능이 좋음
(전체 이미지로 임베딩 비교해서 순위를 매기고 거기서 높은 순위의 이미지들을 패치수준에서 한번 더 비교)

우리의 크로스 어텐션 기반 2 입력이미지 Hybrid-ViT모델은 DeepFace-EMD와 성능은
유사하면서 2배이상 빠름

또한 크로스 어텐션 기반 2 입력이미지 Hybrid-ViT모델과 DeepFace-EMD는 Siamese nueral networks(SNNs)보다 설명 가능성이 더 뛰어남

Face recognition을 위한 기존의 방법들은 우선 CNN기반 아키텍쳐를 백본으로 사용해서 deep face features를 추출한 후 이를 Metric learning 방법을 활용하여 신원을 classification함 그러나 이는 in-distribution에서는 높은 성능을 보이지만 OOD데이터에서는 성능이 저하됨
최근 연구에서 DeepFace-EMD는 CNN의 출력을 기반으로 Earth Mover`s Distance(EMD) 기반 비교방법을 도입해서 OOD성능을 향상시킴 이와 비슷하게 우리는 2개의 입력간 크로스 어텐션 정보를 활용함

Out-of-distribution face identification.

OOD나 adversarial atteck의 경우 기존 SNNs기반 FI에서 성능이 좋지 않음
이를 해결하기 위해 특정 OOD 유형에 대해 증강하여 재학습 시키는 경우가 있지만 이는 새로운 유형의 OOD를 처리할 수는 없음 또다른 해결법으로 가려진 부분을 복원하여 인식을 수행하는 방법도 있는데 이는 인물의 정체성을 유지하지 못하거나 시스템의 결정을 불투명하게 만듬

Siamese networks for patch-wise comparison.

일반적인 FI기법에서는 SNNs구조를 사용하여 이미지 단위 임베딩의 거리나 cosine similarity를 비교하는 방식 사용 최근 연구에서는 EMD기반 이미지 유사도 접근법을 이용하여 이미지 단위와 패치 단위 비교를 결합하면 OOD에서도 높은 성능을 낼 수 있음. 기존 방법은 이미지를 전체 단위로만 비교하므로 국소적인 패치 단위 정보는 버릴 가능성이 있음.

Vision Transformers for patch-wise comparison.

패치 단위에서 동작하는 ViT는 뛰어난 이미지 분류성능을 달성했으며 CNN과 달리 명시적인 특징추출이 필요하지 않음 대부분의 ViT는 단일 이미지 아키텍쳐를 기반으로 진행되며 셀프 어텐션을 활용하여 이미지 내부에서 패치 간 유사도를 비교하거나 이미지-텍스트 모델에서 이미지 패치와 텍스트 토큰 간 유사도를 비교하는 방식으로 사용 CrossViT는 두 개의 다른 해상도를 가진 이미지를 비교하는 방식일 뿐 두개의 다른 이미지를 비교하는 것은 아님. 기존의 얼굴인식에서 트랜스포머 모델 사용은 기본 ViT에 단일이미지를 사용하는 방법으로 두 이미지 간 상호작용은 포함되지 않음.

또다른 두 개의 이미지 입력을 사용하는 연구들은 FI가 아닌 person re-identification과 관련된 연구
따라서 두 개의 이미지 기반 트랜스포머 모델을 활용한 FI는 연구 공백이 존재

Model interpretability of Vision Transformers.

ViT의 설명가능성 조사
1) cross-Correlation과 Attention Flow Approximation을 결합
Visualizing paired image similarity in transformer networks.(2022)
2) 멀티모달 비전-언어 트랜스포머에서 텍스트 토큰과 이미지 토큰 간 유사도 흐름을 활용하여 유사도 점수 설명
Vilt: Visionand-language transformer without convolution or region supervision.(2021)
3) ViT의 여러 계층에서 크로스 어텐션을 집계하고 그 그레디언트를 분석
Generic attentionmodel explainability for interpreting bi-modal and encoderdecoder transformers(2021)
Transformer interpretability beyond attention visualization.(2021)
위 논문에서는 ViT의 해석 가능성을 시각화 하기위해 Visualizing deep similarity networks.(2019)방법 사용

3. Method

이 논문에서는 OOD데이터에서 FI를 위해 새로운 ViT아키텍쳐 Model H2L을 제안
이 모델은 두개의 이미지를 입력(input)으로 받아 셀프 어텐션과 크로스 어텐션을 모두 활용하여 두 이미지 간의 유사도 점수를 계산

3.1. Problem Formulation

DeepFace-EMD와 유사하게 우리의 방법은 사람을 identify하기 위해 쿼리 이미지를 모든 갤러리 이미지와 비교하여 ranking(ST1)한 후 re-ranking(ST2)하여 가장 유사한 top-1을 선정하는 작업 이 논문에서는 gesture가 없는 정면 얼굴 데이터만 고려함

3.2. Architecture: a two-Image Hybrid ViT

profile
AI꿈나무

0개의 댓글