[논문] About Face: A Survey of Facial Recognition Evaluation 요약

ss0510s·2023년 3월 7일
0

졸업프로젝트

목록 보기
8/9

Abstract

1976년 부터 2019년 까지 145 million의 이미지를 조사한 결과, 이러한 dataset들은 정치적 동기, 기술적 능력과 현재 규범들의 변화에 의해 형성된다. 이러한 영향들이 해로울 수 있는 특정 관행을 어떻게 가리는 지 논의하고, 현실세계에서 기술의 기능에 대한 이해를 확립할 세부적인 명시적 의사소통을 위한 사례를 만든다.

Introduction

  • NIST에서는 2014년과 2018년 사이에 FPT(Facial processing technology)가 0.2% 실패율을 보인다고 한다. 그러나 현실 세계에서 런던의 용의자 식별 시스템에서 96% 실패 등의 반례가 발생한다. 특히, 인구통계학적 하위 그룹에서 더 높은 실패율을 보인다. ex ) Amazon Rekognition system : 소수민족의 운동선수를 범죄자로 잘못 인식
  • 또한, 개인 정보 등의 문제로 대부분의 FPT 사용이 정부에 의해 금지된다.
  • 이러한 사람들의 인식과 높은 실패율에도 불구하고, 학술연구에서는 여전히 FPT를 성능이 높다고 평가한다. → 따라서 이러한 괴리를 이해하기 위해 1960년부터 현재까지의 데이터셋들을 분석한다. 이는 시스템 성능에 대한 신뢰할 수 있는 자료를 추출하여 평가에 필요한 것이 무엇인지를 파악한다.

Terminology & Scope

  • FPT(Facial Processing Technology) : 얼굴 이미지 식별 및 특성화를 관련된 모든 작업을 포괄하는 광범위한 용어
    • face detection : 이미지의 bounding box내에서 얼굴을 찾음
    • face verification : 주어진 이미지에 query image를 일대일 확인
    • face identification : query image를 주어진 이미지 repository 내에서 가장 유사한 결과와 일치 시킴(일대다)
    • face analysis: 얼굴 특성을 결정하기 위한 분류작업
  • facial recognition은 여전히 주로 2D image 기반 예측이므로, 본 survey에서도 범위를 2D image로 제한한다.

Historical Context of Facial Recognition Development

Period I : Early Research Findings(1964 - 1965)

  • 1964년 Woodrew Bledsoe에 의해 컴퓨터로 용의자 식별에 대해 안면 인식 기술을 처음 사용하였다.
  • 초기 접근 방식 : 얼굴 특징들 간의 계산된 거리 벡터로 각 개인을 인코딩 → 대중화되었지만, 계산 비용이 많이 들고 느리다는 단점
  • 대안 접근 방식 : 저차원 공간에서 얼굴 특징의 픽셀 강도를 나타내는 고유면(eigenfaces) → 설정을 수동으로 설계하고, 수동으로 레이블을 설정해야하기 때문에 데이터셋 수집이 어려움

Period II : Commercial Viability as the “New Biometric”(1996 - 2006)

  • FERET(Face Recognition Technology) database : 1996년 정부 관리는 얼굴을 생체 인식으로 받아들인다. 이에 따라 us 정부와 NIST는 반통제된 상황에서 이미지 dataset을 수집한다. → 얼굴 인식 연구에 대한 관심도를 높임
  • NIST에서 새로운 상용 시스템을 평가하는 benchmark인 Facial Recognition Vendor Test(FVRT) 발표
  • 더 많은 데이터셋은 초기 컴퓨터 비전 방법(SVNs, CNNs, HMMs)이 얼굴 인식에 적용될 수 있지만, 작은 환경변화에도 더 낮은 성능을 나오게 한다.

Period III : MainStream Development for Unconstrained Settings(2007 - 2013)

  • Labeled Faces in the Wild(LFW) dataset : 웹을 활용하여 포즈, 표정, 조명의 무한한 조합으로 생성된, 최초의 완전히 제한되지 않은 얼굴 데이터셋 → 비정형 및 제한되지 않은 데이터셋의 수요 증가, 실제 조건와 유사

Period IV : Deap Learning Breakthrough(2014 and onwards)

  • DeepFace : 딥러닝으로 훈련된 최초의 안면 인식 모델, facebook 프로필 이미지 dataset으로 facebook 연구원에 의해 개발 → LFW test set에서 97.35.% 정확도 → 딥러닝 모델을 만족하기 위한 데이터셋의 증가
  • VGG-Face dataset , Microsoft’s 1M MS Celeb, MegaFace, CASIA WebFace dataset
  • IJB-A : 2015년 NIST에서 IARPA가 주관한 제공된 image set에서 알고리즘을 실행하고 출력 데이터를 반환하는 공개 challenge → 얼굴 데이터셋 증가 → 과적합을 방지하도록 유명한 dataset과 겹치지 않도록 설계

Survey of Facial Recognition Evaluation

  • Celeb 500k of 2018 : 50,000,000 이미지를 포함한 가장 큰 dataset
  • FRVT Ongoint challeng data from NIST : 14,400,000장의 얼굴 이미지를 포함한 가장 많은 image subjects를 포함
  • 1988’s JACFEE: 가장 작은 dataset → 평균적으로 1,262,118 이미지들과 159,758 subjects가 존재

Task Selection

  • Task는 누가 데이터셋을 만들고 자금을 조달하는지에 따라 영향을 받는다. → 정부에 의해 영향을 받았기 때문에 보안, 용의자 식별 등이 우선순위가 높음 → 최근에서야 얼굴 분석 task가 나타남
  • 얼굴 분석은 가장 모호한 모델 목표를 포함할 가능성이 있는 작업 클래스

Benchmark Data

  • 얼굴 데이터 벤치마킹 관행은 역사적으로 모델 개발을 주도하는 데 가장 영향력 있는 이해 관계자의 요구에 의해 형성
  • 얼굴 데이터는 고유하고 식별 가능한 생체 정보이지만 다양한 형태로 쉽게 사용할 수 있으므로 심각한 개인 정보 침해를 영속시킬 가능성이 있는 방식으로 수동적으로 수집
  • Dataset size : 딥러닝에 따른 더 큰 규모의 데이터셋 필요
  • Data Sources
    • 제어되는 얼굴 데이터 캡처 → 비용이 많이 듬
    • 웹 검색을 통한 제약없는 데이터 캡처
    • 감시카메라 영상을 이용한 데어터 마이닝
  • Data Sharing : 개인정보보호문제
  • Dataset Reporting : 비표준화
  • Demographic Representation : 여러 데이터셋이 구축, 경우에 따라 다양성을 추구하면 개인정보 침해문제 발생

Evaluation Criteria

  • Consistency of Results : 벤치마크에 대한 일관성이 보장
  • Matrics : 이미지 유사성
    • False Match Rate (FMR) = FP/N = FP(FP+TN)

    • False Non-Match Rate(FNMR) = FN/(FN+TP)

    • Classfication Acurracy(Acc) = P(g(x_i, y_i) = C_i )

      Acc = (TP + TN) / (TP+TN+FP+FN)

      → 더 나은 성과를 위해 threshold를 조정

  • Community Adoption : 특정 데이터 벤치마크의 커뮤니티 채택 수준과 얼굴 인식 개발에 대한 영향
    • 이 survey에서는 FERET이 가장 많이 인용
  • Qualitative Assessments : 감사 대상 모델 사용의 윤리적 준수에 대한 정보를 기록

Recommendations

  • 기술의 규모와 범위가 증가함에 따라, 개인정보 보호, 인식 등의 문제가 발생 → 민감한 생체 정보가 포함된 데이터 세트의 개발 및 보급에 더욱 신중할 필요가 있음
  • 모델 및 얼굴 데이터 세트의 문서화 관행을 표준화할 필요가 있음
  • 이 기술에 대한 초기의 협소한 목표는 경찰 또는 군사 감시의 목적

Conclusions

  • 데이터 세트 평가는 얼굴 인식 시스템에 대한 투명성과 책임을 제공하고 더 책임감 있는 머신 러닝 개발을 생성하기 위해 주어진 데이터 세트의 윤리를 질문할 수 있는 중요한 시점이다.

https://arxiv.org/pdf/2102.00813.pdf

profile
개발자가 되기 위해 성장하는 중입니다.

0개의 댓글