[논문 리뷰] GhostFaceNets: Lightweight Face Model From Cheap Operations

한의진·2024년 9월 23일
0

스터디_리뷰

목록 보기
15/15

Abstract

  • DL에 기반한 바이오메트릭 모델은 한정된 메모리 자원과 컴퓨팅 자원위에서 배포되어야 한다.
  • 이전의 모델들은 feature map 중복성 문제를 해결하지 못하였음.
  • Ghost module은 이 분야에서 큰 혁신을 이루었다.
  • 컴퓨팅적으로 비싸지 않은 linear transformation을 사용하였다 (feature에서 feature map 작성을 위해, 더 복잡한 feature information을 추출할 수 있다)
  • GhostNetV1 and GhostNetV2 둘다 Ghost module에 기반을 두었다. (Group of Facial Recognition Modles: GhostFaceNets)
  • Long range Dependencies를 획득하기 위해 Attention Mechanism을 추가한 것이 GhostNetV2이다.
  • 60-275MFLOPs만큼 계산량에서 우세 - CNN의 최선의 결과값보다 많이 우세한 결과이다.
  • ArcFace loss 함수 및 MS-Celeb-1M Dataset으로 트레이닝한 모델이 가장 우수한 성능
  • CNN과 다르게 효율을 매우 높였다!

Introduction

  • 스마트폰, 태블릿과 같은 모바일 디바이스는 우리 일상생활 속 필수적인 장비. (소셜 네트워크, 이메일, 이커머스, 뱅킹) ⇒ 전통적인 컴퓨터를 앞지름.
  • 사용자와 기업의 경우 보안 염려나 보안 위협 문제를 겪고 있음.
  • FD, FR, FV가 스마트폰에 보편적으로 사용
  • 딥러닝 기반 모델이 더 만족할 만한 결과와 SOTA performance 를 내었음.
  • 그러나 스마트폰과 같은 디바이스에서는 Computational Resource의 한계가 존재
  • 최근의 FR development들은 이러한 한계점을 극복하기 위해 pre-trained SOTA FR을 응용 (큰 모델에서 작은 모델로 knowledge를 전달할 수 있음) - Knowledge Distillation
  • 다른 연구자들은 quantization technique를 사용
  • 계산적인 복잡도를 표시하기 위해 Lightweight Attribute를 사용함 (1G FLOPs의 연산)
  • GhostNetV1, GhostNetV2가 Image Classification을 위한 Task로서 확장.
  • GhostNetV1는 더 적은 파라미터로 더 많은 특징 추출을 위해 Ghost module 사용, GhostNetV2는 long-range dependency를 추가
  • GhostNet은 MobileNet등 다른 많은 모델을 성능에서 능가함.

GhostFaceNets

: GhostNetV1와 GhostV2를 FR 필드에서의 백본으로 적용

  • Global Depthwise Convolution을 디자인하였고, (FR와 FV Task를 위해)
  1. Squeeze and Excitation module을 적용 (구분 능력 향상을 위해)
  2. Rectified Linear Unit(ReLU)를 PReLU로 교체
  3. Feedback signal을 위한 ArcFace

3. Preliminaries

GhostNetV1 and V2

GhostNetV1: Low-cost linear 연산을 이용해 feature map을 생성하면서, certain percentage를 생성하기 위해 사용.

C채널의 텐서를 가지고, 전통적인 feature map과는 다르다.

성능에 미치는 영향이 적으면서 parameter와 계산량을 줄였다!

Linear operation은 intrinsic convolution과 유사하다.

(input using back propagation으로 학습이 가능하다)

스크린샷 2023-11-16 23.00.00.png

모델의 모든 부분을 CNN으로 처리하는 것이 아니라, Linear Transformation을 통해 Ghost Feature들을 생성해 낸다. (비슷하게 보이는 이미지들이 있는데 이것이 그렇게 만들어진 feature map)

  • deep CNN으로 많은 연구들이 디자인 하였으나, poor trade-off을 가짐.(Performance vs Compactness)
  • Shuffle Operation and depthwise Convolution을 기존의 연구에서 제안하였으나, 1x1 Convolution은 연산의 복잡도를 더하기만 한다.
  • 기존의 연구들은 CNN에서 더 많은 특징을 뽑아내면 더 좋은 결과를 얻을 수 있다는 사실에 의존한다.
  • VGG16으로 first block의 output을 취한 후, 8x8 Feature map gray visualization, 8x16 Feature map Viridis Visualization
  • 유사하면서 중복되는 feature map pair가 존재하며(ghosts), 이것은 linear operation으로 생성 가능하다. 게다가, 희소 데이터가 존재한다. ⇒ 특정 뉴런은 활성화되지 못했고, 유용하지 않다는 것.
  • 중복되고 유사한 이 feature들이 CNN의 고성능에 중대한 영향을 미치고, 이것을 cheap operation으로 생성할 수 있다.

Ghost module

: 모든 Convolution Layer의 output tensor에서

  1. total channel의 첫 x%를 만든다(Sequential Stack of three layer을 사용해서, standard convolution, batch normalization, nonlinear activation function을 이용해서)
  2. 이 출력이 Second Block으로 전달, standard convolution, batch normalization, nonlinear activation function을 한 번 더
  3. 같은 수의 feature map을 효율적으로 생성할 수 있다, 그리고 현존하는 neural network와 연결될 수 있다.

GhostNetV1

  • Ghost module을 사용하여, MobileNetV3의 수정 버전인 GhostNetV1이 소개되었다.
  • Ghost bottleneckV1은 MobileNetV3의 bottleneck과 같은 아키텍처 디자인
  • GhostNetV1은 tensor 채널이 증가된 Ghost bottlenecksV1을 쌓음.

SE module: channel attention을 제공

(최소한의 계산 비용으로 정확도는 높임)

GhostNetV1의 latency speed, model size, computational cost, 정확도는 width multiplier factor에 의해 제어

모델 사이즈, 시간 복잡도: 제곱

GhostNetV2

Attention-based models에서 inspiration을 받아, long-range dependency를 포함하여 모델을 개선하기 위해 V2를 제안함.

DFC Atten branch (Atten-based layer)를 만들었다!

Self-Attention Layer와는 다르게, DFC Attention Branch는 효율적이고 long-range dependency between pixel를 capture할 수 있다.

이전의 attention module은 하드웨어 친화적이지 않다! (Tensor reshape와 transpose operation에 많은 자원을 사용하기 때문)

⇒ 텐서 연산을 최소화하고 계산을 효율화

스크린샷 2023-11-17 00.45.49.png

  1. Downsample
  2. Convolution
  3. Horizontal FC
  4. Vertical FC
  5. Sigmoid

Ghost module과 DFC Attention 모듈이 Directly Paralleling함으로써 생기는 추가적인 계산 비용을 줄이기 위해 native average pooling and bilinear interpolation for downsampling and upsampling이 사용

Horizontal: Batch Normalization, Zero padding

Vertical: 방식은 같고 방향만 다름

장기적인 dependency feature를 파악하고 계산 비용을 효율적으로 감소시킬 수 있다.

4. GhostFaceNets

GhostNet에 영감을 받아 모델을 만들게 되었음.

특징

  1. Applying different output head settings (named modi-
    fied GDC)
  2. ReLU 활성화 함수를 by PReLU 로 대체
  3. Adjusting the SE modules to improve the discriminative
    power of GhostFaceNets
  4. 손실 함수로 ArcFace 사용(5번 참고)

FR/FV 분야에서 활용시 성공함을 증명

GAP Layer가 output feature layer를 모두 동일하게 간주하기 때문에 비효율적.

GDC Layer를 modified하였음.

⇒ 원래의 GAP Layer를 수정된 GDC 레이어로 대체

GhostNet은 ReLU 함수를 사용하여, 음수에 대한 값을 처리할 수 없다는 단점.

이 연구에서는 PReLU 함수 사용

(복잡한 Nonlinear Function에서도 효율적으로 처리할 수 있어 모델의 성능이 향상)

output shape를 1x1xchannel_axis로 변환하기 위해서 GAP 사용

convoloution은 1x1 Kernel size와 reduction factor filter를 사용하였다.

channel_axis를 1/r (r은 SE ratio)을 곱한 후 1x1xchannel_axis로 reshape back

sigmoid 활성 함수의 출력은 Se module의 입력에 의해 곱해지고 이것이 rescaled됨.

  • stride hyperparameter을 설정하여 model의 fast downsampling 전략을 설정

GhostFaceNets에서의 변화

  1. Backbone
  2. the width multiplier alpha
  3. stem of the model stride

다른 hyperparameter의 효과를 알기 위해 MS1MV2와 MS1MV3의 데이터셋 사용

Results

성능 검증 및 측정은 ISO/IEC 19795-1을 통해 수행되었다.

GhostFaceNetV1 (MS1MV3)

  • Stride 1:
    • MFLOPs: 215.658
    • Performance: Outperformed lightweight SOTA models in groups 1-4 on 8 benchmarks, except for LFW, AgeDB-30, and CFP-FP.
    • Accuracies: LFW (99.73%), AgeDB-30 (98%), CFP-FP (96.83%).
    • Comparison: Lagged slightly behind VarGFaceNet despite significantly lower FLOPs.
  • Stride 2:
    • MFLOPs: 60.296
    • Performance: Outperformed lightweight SOTA models in groups 3 and 4 on all benchmarks except for a small margin on AgeDB-30 against ShuffleMixFaceNet-S.
    • Accuracies: Competitive on LFW, CA-LFW (95.6%), CFP-FP (93.3143%), and AgeDB-30 (96.9167%).
    • Comparison: Even lower FLOPs compared to GhostFaceNetV1 (Stride 1) but remained competitive against higher FLOP models.

GhostFaceNetV1 (MS1MV2)

  • Stride 1 & 2:

    • Performance: Outperformed groups 3 and 4 on all benchmarks. Competitive or superior results against groups 1 and 2 models on several benchmarks (e.g., CFP-FF, CA-LFW, CP-LFW).
    • Achievements: SOTA accuracy on CFP-FF among all models in groups 1 and 2.
  • GhostFaceNetV2-1(MS1MV2)와 MS1MV3모두 기존의 모델보다 우수한 성능을 보였지만, MS1MV2는 기대할 만한 수준은 아님. FR Task에서 MS1MV3이 더 적합함.

스크린샷 2023-11-20 12.07.47.png

  • MegaFace상에서 GhostFaceNets을 이전의 5가지 최신 모델과 비교하여 테스트한 결과 MegaFace와 MegaFace(R) 데이터셋 모두에서 더욱 우수한 성능을 보임.

Conclusion

스크린샷 2023-11-20 12.33.40.png

정확하고 효율적인 FR model을 제시하였다.

많은 실험들은 LFW, AgeDB-39, IJB-B, MegaFace를 사용하였고, GhostFaceNets은 최소의 컴퓨팅 복잡성으로 효율적인 모델임이 확인

모든 가능한 벤치마크에서 SOTA performance를 보여주었음.

정확한 결과를 보여줌과 동시에 계산 복잡도를 줄여, 아주 효율적인 모델이라 할 수 있다.

0개의 댓글

관련 채용 정보