[DL/CV] Combining EfficientNet and Vision Transformers for Video Deepfake Detection

๊ตฌ๋งยท2024๋…„ 11์›” 22์ผ
0

[Paper Review]

๋ชฉ๋ก ๋ณด๊ธฐ
8/8

๐Ÿ”—์›๋ฌธ

๐Ÿ“Œgithub

Abstract

์ ์ฐจ ์‚ฌ์‹ค์ ์ธ ๋”ฅํŽ˜์ดํฌ๋“ค์ด ์ƒ์„ฑ๋˜๋ฉฐ, ๋”ฅํŽ˜์ดํฌ ํƒ์ง€๊ฐ€ ์–ด๋ ค์›Œ์ง€๊ณ  ์žˆ๋‹ค. ์ „ํ†ต์ ์œผ๋กœ CNN์ด ๋”ฅํŽ˜์ดํฌ ํƒ์ง€์— ์‚ฌ์šฉ๋˜์–ด ์™”๊ณ , ํŠนํžˆ EfficientNet B7 ๊ธฐ๋ฐ˜์˜ ๋ฐฉ๋ฒ•์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค.
๋ณธ ์—ฐ๊ตฌ๋Š” ์ •๊ตํ•ด์ง€๋Š” ์–ผ๊ตด ์ƒ์„ฑ์— ๋”ฐ๋ผ ์–ผ๊ตด์— ์ดˆ์ ์„ ๋งž์ถ”๊ณ ์ž ํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ViT๋ฅผ CNN ๊ธฐ๋ฐ˜์˜ EfficientNet B0๊ณผ ๊ฒฐํ•ฉํ•ด ํŠน์ง• ์ถ”์ถœ๊ธฐ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์ข‹์€ ์„ฑ๊ณผ๋ฅผ ์–ป์—ˆ๋‹ค. ๊ธฐ์กด ์ข‹์€ ์—ฐ๊ตฌ๋“ค๊ณผ ๋‹ฌ๋ฆฌ, distillation์ด๋‚˜ ensemble ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ , ๊ฐ™์€ ์˜์ƒ ๋‚ด ์—ฌ๋Ÿฌ ์–ผ๊ตด ์ฒ˜๋ฆฌ๋ฅผ ์œ„ํ•œ voting scheme๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์ถ”๋ก ์ ์ธ ์ ˆ์ฐจ๋ฅผ ์ œ์‹œํ•œ๋‹ค. ๋ณธ์—ฐ๊ตฌ์˜ ๋ชจ๋ธ์€ DFDC์—์„œ AUC 0.951 ๊ทธ๋ฆฌ๊ณ  F1-score 88%๋ฅผ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

1. Introduction

๋”ฅํŽ˜์ดํฌ ์ƒ์„ฑ ๊ธฐ์ˆ ์˜ ๋ฐœ์ „๊ณผ ์ด ๊ธฐ์ˆ ์˜ ์ ์  ๋” ์‰ฌ์›Œ์ง€๋Š” ์ ‘๊ทผ์„ฑ์œผ๋กœ ์ธํ•ด, ์—ฐ๊ตฌ๋Š” ์กฐ์ž‘๋œ ์˜์ƒ๊ณผ ์‹ค์ œ ์˜์ƒ์„ ๊ตฌ๋ณ„ํ•˜๋Š” ํšจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ•์„ ์ฐพ๋Š” ๋ฐ ์ง‘์ค‘ํ•ด์•ผ ํ•œ๋‹ค.
๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ํŠนํžˆ EfficientNet B0์™€ ๋‹ค์–‘ํ•œ ์œ ํ˜•์˜ ๋น„์ „ ํŠธ๋žœ์Šคํฌ๋จธ๋ฅผ ๊ฒฐํ•ฉํ•œ ๋‹ค์–‘ํ•œ ์†”๋ฃจ์…˜์„ ๋ถ„์„ํ•˜๊ณ , ์ด๋ฅผ ํ˜„์žฌ์˜ ์ตœ์ฒจ๋‹จ ๊ธฐ์ˆ ๊ณผ ๋น„๊ตํ•œ๋‹ค. ViT์™€ ๋‹ฌ๋ฆฌ, CNN์€ ์—ฌ์ „ํžˆ ์ค‘์š”ํ•œ ์•„ํ‚คํ…์ฒ˜์  ํŠน์„ฑ์„ ์œ ์ง€ํ•˜๊ณ  ์žˆ๋Š”๋ฐ, ์ด๋Š” ๊ณต๊ฐ„์  ์ง€์—ญ์„ฑ(spatial locality)์ด๋‹ค. ์ด ํŠน์„ฑ์€ ์ด๋ฏธ์ง€ ํŒจ์น˜์˜ abnormalities์„ ๋ฐœ๊ฒฌํ•˜๊ณ  ํšจ์œจ์ ์ธ ๋ฐ์ดํ„ฐ ์ฒ˜๋ฆฌ๋ฅผ ์œ ์ง€ํ•˜๋Š” ๋ฐ ๋งค์šฐ ์ค‘์š”ํ•˜๋‹ค.
๋˜ํ•œ, ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ์˜์ƒ์— ๋Œ€ํ•ด ์ถ”๋ก ์„ ์ˆ˜ํ–‰ํ•˜๊ธฐ ์œ„ํ•œ ๊ฐ„๋‹จํ•˜์ง€๋งŒ ํšจ๊ณผ์ ์ธ voting mechanism์„ ์ œ์•ˆํ•œ๋‹ค.์ด ๋ฐฉ๋ฒ•๋ก ์ด ๋” ๋‚˜์€ ์•ˆ์ •์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ด๋Œ์–ด๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค.

3. Method

๋จผ์ € ์›๋ณธ ์˜์ƒ์—์„œ MTCNN์„ ์‚ฌ์šฉํ•ด ์–ผ๊ตด์„ ์‚ฌ์ „์— ์ถ”์ถœํ•œ๋‹ค. ๋ณธ์—ฐ๊ตฌ๋Š” ์‚ฌ์ „ ์ถ”์ถœ๋œ ์–ผ๊ตด์„ ์ž…๋ ฅ์œผ๋กœ ๋ฐ›์•„ ํ•ด๋‹น ์–ผ๊ตด์ด ์กฐ์ž‘๋˜์—ˆ์„ ํ™•๋ฅ ์„ ์ถœ๋ ฅํ•˜๋Š” ๋‘ ๊ฐ€์ง€ ํ˜ผํ•ฉํ˜• ์ปจ๋ณผ๋ฃจ์…˜-ํŠธ๋žœ์Šคํฌ๋จธ ์•„ํ‚คํ…์ฒ˜๋ฅผ ์ œ์•ˆํ•œ๋‹ค.
์ด ๋‘ ์•„ํ‚คํ…์ฒ˜๋Š” ์‹คํ—˜์ ์œผ๋กœ ์ง„์งœ์™€ ๊ฐ€์งœ ์‚ฌ๋ก€๋ฅผ ๊ตฌ๋ณ„ํ•˜๋„๋ก ์ง€๋„ ํ•™์Šต ๋ฐฉ์‹์œผ๋กœ ํ›ˆ๋ จ๋˜๊ณ  ์ด์ง„ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋กœ ์„ค์ •ํ•˜์—ฌ ํ•ด๊ฒฐํ•œ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, Efficient ViT์™€ Convolutional Cross ViT๋ฅผ ์ œ์•ˆํ•œ๋‹ค. ์ œ์•ˆ๋œ ๋ชจ๋ธ๋“ค์€ ์–ผ๊ตด ๋‹จ์œ„๋กœ ํ›ˆ๋ จ๋˜๋ฉฐ, ์ถ”๋ก  ์‹œ์—๋Š” ์‹œ๊ฐ„์  ๋ฐ ์—ฌ๋Ÿฌ ์–ผ๊ตด์˜ ์˜ˆ์ธก ๊ฒฐ๊ณผ๋ฅผ ์ข…ํ•ฉํ•˜์—ฌ ์ „์ฒด ์˜์ƒ์— ๋Œ€ํ•œ ๊ฒฐ๋ก ์„ ๋„์ถœํ•œ๋‹ค.

Efficient ViT

Efficient ViT๋Š” ๋‘ ๊ฐœ์˜ ๋ธ”๋ก์œผ๋กœ ๊ตฌ์„ฑ๋˜๋Š”๋ฐ,
์ฒซ ๋ฒˆ์งธ๋Š” feature extractor๋กœ ์ž‘๋™ํ•˜๋Š” ์ปจ๋ณผ๋ฃจ์…˜ ๋ชจ๋“ˆ์ด๊ณ , ๋‘ ๋ฒˆ์งธ๋Š” ViT์™€ ๋งค์šฐ ์œ ์‚ฌํ•œ ์„ค์ •์˜ Transformer Encoder์ด๋‹ค.

EfficientNet์ด ๋”ฅํŽ˜์ดํฌ ํƒ์ง€์— ์ ํ•ฉํ•จ์„ ๊ณ ๋ คํ•˜์—ฌ, ๋ณธ ์—ฐ๊ตฌ๋Š” EfficientNet ๊ณ„์—ด ์ค‘ ๊ฐ€์žฅ ์ž‘์€ EfficientNet B0๋ฅผ ์ž…๋ ฅ ์–ผ๊ตด ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ปจ๋ณผ๋ฃจ์…˜ ์ถ”์ถœ๊ธฐ๋กœ ์‚ฌ์šฉํ–ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ, EfficientNet์€ ์ž…๋ ฅ๋œ ์–ผ๊ตด์—์„œ 7ร—7 ํ”ฝ์…€๋กœ ์ด๋ฃจ์–ด์ง„ ์ฒญํฌ๋ณ„๋กœ ์‹œ๊ฐ์  ํŠน์ง•์„ ์ƒ์„ฑํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๊ฐ ๊ณต๊ฐ„ ์œ„์น˜์˜ ํŠน์ง•์€ linear projection์„ ๊ฑฐ์ณ ViT์— ์˜ํ•ด ์ถ”๊ฐ€๋กœ ์ฒ˜๋ฆฌ๋œ๋‹ค. ์ด ๊ณผ์ •์—์„œ CLS ํ† ํฐ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ด์ง„ ๋ถ„๋ฅ˜ ์ ์ˆ˜๋ฅผ ์ƒ์„ฑํ•œ๋‹ค. (์•„ํ‚คํ…์ฒ˜ - Fig.1a)

EfficientNet B0 feature extractor๋Š” ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜๋กœ ์ดˆ๊ธฐํ™”๋˜๊ณ , ๋งˆ์ง€๋ง‰ ๋ ˆ์ด์–ด๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์ด ํŠน์ • ๋‹ค์šด์ŠคํŠธ๋ฆผ ์ž‘์—…์— ๋” ์ ํ•ฉํ•˜๊ณ  ์ผ๊ด€๋œ ํ”ผ์ฒ˜ ์ถ”์ถœ์„ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋„๋ก fine-tuning๋œ๋‹ค. EfficientNet B0 ์ปจ๋ณผ๋ฃจ์…˜ ๋„คํŠธ์›Œํฌ์—์„œ ์ถ”์ถœ๋œ ํŠน์ง•์€ CNN์ด ์ด๋ฏธ ์ด๋ฏธ์ง€์—์„œ ์ค‘์š”ํ•œ ์ €์ˆ˜์ค€์˜ ๊ตญ๋ถ€ ์ •๋ณด๋ฅผ ํฌํ•จํ•˜๊ณ  ์žˆ๊ธฐ ๋•Œ๋ฌธ์— ViT์˜ ํ•™์Šต ๊ณผ์ •์„ ๋‹จ์ˆœํ™”ํ•œ๋‹ค.

Convolutional Cross ViT

Efficient ViT์ฒ˜๋Ÿผ ์ž‘์€ ํŒจ์น˜๋งŒ ์‚ฌ์šฉํ•˜๋Š” ์•„ํ‚คํ…์ฒ˜๋กœ ์ œํ•œํ•˜๋Š” ๊ฒƒ์€ ์ตœ์ ์˜ ์„ ํƒ์ด ์•„๋‹ ์ˆ˜ ์žˆ๋‹ค. ์™œ๋ƒํ•˜๋ฉด ๋”ฅํŽ˜์ดํฌ ์ƒ์„ฑ ๊ธฐ๋ฒ•์ด ๋„์ž…ํ•œ artifacts์€ localํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ, globalํ•  ์ˆ˜๋„ ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ์—ฐ๊ตฌ๋Š” Convolutional Cross ViT ์•„ํ‚คํ…์ฒ˜๋ฅผ ๋„์ž…ํ–ˆ๋‹ค. Convolutional Cross ViT๋Š” Efficient ViT์™€ ๋‹ค์ค‘ ์Šค์ผ€์ผ Transformer ์•„ํ‚คํ…์ฒ˜๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ์„ค๊ณ„๋˜์—ˆ๋‹ค.

Convolutional Cross ViT๋Š” ๋‘ ๊ฐœ์˜ ๋ถ„๋ฆฌ๋œ branch๋ฅผ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, S-branch๋Š” ๋” ์ž‘์€ ํŒจ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๊ณ , L-branch๋Š” ๋” ๋„“์€ receptive field๋ฅผ ๊ฐ€์ง€๊ธฐ ์œ„ํ•ด ๋” ํฐ ํŒจ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค. ๋‘ branch์—์„œ Transformer Encoder์— ์˜ํ•ด ์ƒ์„ฑ๋œ ์‹œ๊ฐ์  ํ† ํฐ์€ cross attention๋ฅผ ํ†ตํ•ด ๊ฒฐํ•ฉ๋˜์–ด, ๋‘ ๊ฒฝ๋กœ ๊ฐ„์˜ ์ง์ ‘์ ์ธ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•œ๋‹ค. ๋งˆ์ง€๋ง‰์œผ๋กœ ๋‘ branch์—์„œ ์ถœ๋ ฅ๋œ CLS ํ† ํฐ์€ ๊ฐ๊ฐ ๋‘ ๊ฐœ์˜ ๋ณ„๋„ logit์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ์‚ฌ์šฉ๋œ๋‹ค. ์ด logit์€ ํ•ฉ์‚ฐ๋œ ํ›„ ์ตœ์ข…์ ์œผ๋กœ sigmoid ํ•จ์ˆ˜๋ฅผ ํ†ตํ•ด ํ™•๋ฅ ๋กœ ๋ณ€ํ™˜๋œ๋‹ค. (์•„ํ‚คํ…์ฒ˜ - Fig.1b)

์—ฌ๊ธฐ์—์„œ๋Š” ๋‘ ๊ฐ€์ง€ ์„œ๋กœ ๋‹ค๋ฅธ CNN ๋ฐฑ๋ณธ์„ ์‚ฌ์šฉํ•˜๋Š”๋ฐ, ์ฒซ ๋ฒˆ์งธ๋Š” EfficientNet B0๋กœ S-๋ถ„๊ธฐ์—์„œ 7ร—7 ์ด๋ฏธ์ง€ ํŒจ์น˜์™€ L-๋ถ„๊ธฐ์—์„œ 54ร—54 ์ด๋ฏธ์ง€ ํŒจ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•ฉ๋‹ˆ๋‹ค. ๋‘ ๋ฒˆ์งธ๋Š” Convolutional Vision Transformer(ConViT)์˜ CNN์œผ๋กœ, S-๋ถ„๊ธฐ์—์„œ 7ร—7 ์ด๋ฏธ์ง€ ํŒจ์น˜์™€ L-๋ถ„๊ธฐ์—์„œ 64ร—64 ์ด๋ฏธ์ง€ ํŒจ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•œ๋‹ค.

[ConViT]

  • (Wodajo, D., Atnafu, S.: Deepfake video detection using convolutional vision transformer. arXiv preprint arXiv:2102.11126 (2021))
  • CNN๊ณผ Vision Transformer๋ฅผ ๊ฒฐํ•ฉํ•œ ์ด ์•„ํ‚คํ…์ฒ˜๊ฐ€ ๋”ฅํŽ˜์ดํฌ ํƒ์ง€์—์„œ ์ „ํ†ต์ ์ธ CNN์ด๋‚˜ ๋‹จ์ผ Transformer ์•„ํ‚คํ…์ฒ˜๋ณด๋‹ค ๋” ํšจ๊ณผ์ ์ด๋ผ๊ณ  ์ฃผ์žฅ
  • ํŠนํžˆ CNN์€ ์ด๋ฏธ์ง€์˜ ์ €์ˆ˜์ค€ ๋ฐ ๊ตญ์†Œ ์ •๋ณด๋ฅผ ์ž˜ ํ•™์Šตํ•˜๋ฉฐ, Transformer๋Š” ๊ธ€๋กœ๋ฒŒ ์ •๋ณด์™€ ํŒจํ„ด์„ ๋” ์ž˜ ํ•™์Šตํ•œ๋‹ค๋Š” ์ ์—์„œ ์ƒํ˜ธ ๋ณด์™„์ ์ž„
  • ์ฆ‰ ์ด CNN์€ S-๋ถ„๊ธฐ์™€ L-๋ถ„๊ธฐ์—์„œ ์„œ๋กœ ๋‹ค๋ฅธ ํฌ๊ธฐ์˜ ํŒจ์น˜๋ฅผ ์ฒ˜๋ฆฌํ•˜๋ฉฐ, ๋ฉ€ํ‹ฐ์Šค์ผ€์ผ ์ •๋ณด๋ฅผ Transformer์™€ ๊ฒฐํ•ฉํ•ด ๋”ฅํŽ˜์ดํฌ ํƒ์ง€ ์„ฑ๋Šฅ์„ ๋†’์ด๋Š” ๋ฐ ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•จ

4. Experiments

4.1 Datasets and Face Extraction

  • ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ FaceForensics++, DFDC ์‚ฌ์šฉ
  • MTCNN์„ ์‚ฌ์šฉํ•ด ๋น„๋””์˜ค์—์„œ ์–ผ๊ตด ์ถ”์ถœ
  • Albumentations๋ฅผ ์‚ฌ์šฉํ•ด ๋ธ”๋Ÿฌ, ๊ฐ€์šฐ์‹œ์•ˆ ๋…ธ์ด์ฆˆ, ์ „์น˜, ํšŒ์ „ ๋“ฑ ๋‹ค์–‘ํ•œ ํฌ๊ธฐ ์กฐ์ •์„ ํฌํ•จํ•œ ๋ณ€ํ™˜ ์ ์šฉ

4.2 Training

  • ๋‘ ๋ฐ์ดํ„ฐ์…‹์—์„œ ์ถ”์ถœ๋œ ์ด 220,444๊ฐœ ์–ผ๊ตด ์‚ฌ์šฉํ•ด ํ›ˆ๋ จ, DFDC์˜ 8070๊ฐœ ์–ผ๊ตด์„ ๊ฒ€์ฆ์šฉ์œผ๋กœ ์‚ฌ์šฉ
  • Binary cross-entropy loss๋ฅผ ์†์‹ค ํ•จ์ˆ˜๋กœ ์‚ฌ์šฉ

4.3 Inference


0.55์˜ real/fake threshold๋ฅผ ์„ค์ •ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋น„๋””์˜ค ๋‚ด ๊ฐœ๋ณ„ ์–ผ๊ตด์— ๋Œ€ํ•œ ๋ชจ๋“  ์ ์ˆ˜๋ฅผ ๋ฌด์ž‘์œ„๋กœ ํ‰๊ท ํ™”ํ•˜๋Š” ๋Œ€์‹ , ์•ฝ๊ฐ„ ๋” ์ •๊ตํ•œ ํˆฌํ‘œ ์ ˆ์ฐจ๋ฅผ ์‚ฌ์šฉํ–ˆ๋‹ค.
๊ตฌ์ฒด์ ์œผ๋กœ, ์ ์ˆ˜๋ฅผ ๋ฐฐ์šฐ์˜ ์‹๋ณ„์ž๋ณ„๋กœ ๊ทธ๋ฃนํ™”ํ•˜์—ฌ ๊ฒฐํ•ฉํ–ˆ๋‹ค. ์–ผ๊ตด ์‹๋ณ„์ž๋Š” ์‚ฌ์šฉํ•œ MTCNN ์–ผ๊ตด ํƒ์ง€๊ธฐ์˜ ์ถœ๋ ฅ์œผ๋กœ ์ œ๊ณต๋œ๋‹ค. ์—ฌ๋Ÿฌ ๋ฐฐ์šฐ๋กœ๋ถ€ํ„ฐ ์–ป์€ ์ ์ˆ˜๋Š” ์‹œ๊ฐ„์— ๊ฑธ์ณ ํ‰๊ท ํ™”๋˜์–ด ์–ผ๊ตด์ด ๊ฐ€์งœ์ผ ํ™•๋ฅ ์„ ์‚ฐ์ถœํ•œ๋‹ค. ๊ทธ๋Ÿฐ ๋‹ค์Œ ๋ฐฐ์šฐ๋ณ„ ์ ์ˆ˜๋Š” hard voting์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฒฐํ•ฉ๋œ๋‹ค. ํŠนํžˆ ์ž„๊ณ„๊ฐ’์„ ์ดˆ๊ณผํ•œ ๋ฐฐ์šฐ์˜ ์–ผ๊ตด์ด ์ ์–ด๋„ ํ•˜๋‚˜๋ผ๋„ ์žˆ๋Š” ๊ฒฝ์šฐ, ํ•ด๋‹น ๋น„๋””์˜ค๋Š” ๊ฐ€์งœ๋กœ ๋ถ„๋ฅ˜๋œ๋‹ค. ๋ณธ ์—ฐ๊ตฌ๋Š” ์ด ์ ‘๊ทผ ๋ฐฉ์‹์ด ํ•œ ๋ฐฐ์šฐ์˜ ์–ผ๊ตด๋งŒ ์กฐ์ž‘๋œ ๋น„๋””์˜ค๋ฅผ ๋” ์ž˜ ์ฒ˜๋ฆฌํ•˜๋Š” ๋ฐ ์œ ์šฉํ•˜๋‹ค๊ณ  ์ฃผ์žฅํ•œ๋‹ค.

๋˜ํ•œ inferenceํ•  ๋•Œ, ๊ณ ๋ ค๋˜๋Š” ์–ผ๊ตด์˜ ์ˆ˜๊ฐ€ ๋ณ€ํ•จ์— ๋”ฐ๋ผ ์„ฑ๋Šฅ์ด ์–ด๋–ป๊ฒŒ ๋ณ€ํ•˜๋Š”์ง€ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ๋„ ์ค‘์š”ํ•˜๊ธฐ์—, ํ…Œ์ŠคํŠธ๊ฐ€ ๊ฐ€๋Šฅํ•œ ๊ฐ€๋ณ๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ˆ˜ํ–‰๋  ์ˆ˜ ์žˆ๋„๋ก, ๋„คํŠธ์›Œํฌ ์ค‘ ํ•˜๋‚˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ…Œ์ŠคํŠธ ์‹œ ๊ณ ๋ ค๋˜๋Š” ์–ผ๊ตด ์ˆ˜๊ฐ€ F1 ์ ์ˆ˜์— ์–ด๋–ค ์˜ํ–ฅ์„ ๋ฏธ์น˜๋Š”์ง€ ์‹คํ—˜ํ–ˆ๋‹ค(Fig.2b).
30๊ฐœ ์ด์ƒ์˜ ์–ผ๊ตด์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์€ ํ†ต๊ณ„์ ์œผ๋กœ ๋ฌด์˜๋ฏธํ•˜๋ฉฐ 30๊ฐœ ์ดํ•˜์˜ ์–ผ๊ตด์„ ์‚ฌ์šฉํ•  ๋•Œ ์•ˆ์ •์ ์ธ ์„ฑ๋Šฅ์ด ๋‹ฌ์„ฑ๋œ๋‹ค๋Š” ๊ฒƒ์„ ๋ฐœ๊ฒฌํ–ˆ๋‹ค.

4.4 Results


ํ‘œ 1์€ EfficientNet์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐœ๋ฐœํ•œ ๋ชจ๋“  ๋ชจ๋ธ์ด ConViT๋ณด๋‹ค AUC์™€ F1 ์ ์ˆ˜์—์„œ ํ›จ์”ฌ ๋” ๋†’์€ ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Š” EfficientNet๊ตฌ์กฐ๊ฐ€ ์ด ์ž‘์—… ์œ ํ˜•์— ๋” ์ ํ•ฉํ•  ๊ฐ€๋Šฅ์„ฑ์„ ์ž…์ฆํ•˜๋Š” ๊ฒฐ๊ณผ์ด๋‹ค. ๋˜ํ•œ, Cross Vision Transformer๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•œ ๋ชจ๋ธ๋“ค์ด ๊ฐ€์žฅ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป์œผ๋ฉฐ, local ๋ฐ globalํ•œ ์ด๋ฏธ์ง€ ์ฒ˜๋ฆฌ๋ฅผ ๊ฒฐํ•ฉํ•˜๋Š” ๊ฒƒ์ด ๋” ๋‚˜์€ ์ด์ƒ ํƒ์ง€๋กœ ์ด์–ด์ง„๋‹ค๋Š” ์ด๋ก ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์—ˆ๋‹ค.

Cross Vision Transformer ๊ธฐ๋ฐ˜ ๋ชจ๋ธ๋“ค์€ EfficientNet B0๋ฅผ patch extractor๋กœ ์‚ฌ์šฉํ•  ๋•Œ ํŠนํžˆ ๋‘๋“œ๋Ÿฌ์ง„ ํ–ฅ์ƒ์„ ๋ณด์—ฌ์ค€๋‹ค. AUC์™€ F1 ์ ์ˆ˜๋Š” ๋‹ค๋ฅธ ์ตœ์‹  ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์•ฝ๊ฐ„ ๋‚ฎ์ง€๋งŒ, ์ด๋Ÿฌํ•œ ๊ฒฐ๊ณผ๋Š”distillation๋‚˜ ensemble๊ธฐ์ˆ ์„ ์‚ฌ์šฉํ•˜์ง€ ์•Š๊ณ  ์–ป์€ ๊ฒƒ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ์€ ํ›ˆ๋ จ๊ณผ ์ถ”๋ก ์„ ๋”์šฑ ๋ณต์žกํ•˜๊ฒŒ ๋งŒ๋“ค๊ธฐ ๋•Œ๋ฌธ์— ๋ณธ ์—ฐ๊ตฌ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์ด ๋‹จ์ˆœํ•˜๋ฉด์„œ๋„ ํšจ๊ณผ์ ์ด๋ผ๋Š” ์ ์„ ๊ฐ•์กฐํ•œ๋‹ค. ์‹ค์ œ๋กœ, EfficientNet ๊ธฐ๋ฐ˜์˜ Cross Vision Transformer๋Š” ์ƒ์œ„ ๋ฐฉ๋ฒ•๋“ค์— ๋น„ํ•ด 1/3 ์ดํ•˜์˜ ํŒŒ๋ผ๋ฏธํ„ฐ๋งŒ ์‚ฌ์šฉํ•˜๋ฉด์„œ๋„ ๊ฒฝ์Ÿ๋ ฅ ์žˆ๋Š” ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ๋‹ค.

๋˜ํ•œ, ํ‘œ 1์˜ ๋งˆ์ง€๋ง‰ ๋‘ ํ–‰์—์„œ๋Š” inference ์‹œ ๋ชจ๋“  ์–ผ๊ตด ์ ์ˆ˜๋ฅผ ๋‹จ์ˆœํžˆ ํ‰๊ท  ๋‚ด๋Š” ๋ฐฉ์‹๊ณผ ๋น„๊ตํ–ˆ์„ ๋•Œ, q๋ณธ์—ฐ๊ตฌ๊ฐ€ ์ œ์•ˆํ•œ ํˆฌํ‘œ ์ ˆ์ฐจ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉด ๊ฒฐ๊ณผ๊ฐ€ ์•ฝ๊ฐ„ ๋” ๊ฐœ์„ ๋  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์ค€๋‹ค. ์ด๋Š” ์ด ๋ฐฉ๋ฒ•์ด ๋ณด๋‹ค ์„ธ๋ฐ€ํ•˜๊ณ  ์•ˆ์ •์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ œ๊ณตํ•จ์„ ์˜๋ฏธํ•œ๋‹ค. Fig.3์—์„œ๋Š” DFDC ๋ฐ์ดํ„ฐ์…‹์— ๋Œ€ํ•ด ๋ณธ ์—ฐ๊ตฌ์˜ ์•„ํ‚คํ…์ฒ˜์™€ ๋‹ค๋ฅธ ๋ชจ๋ธ๋“ค์„ ๋น„๊ตํ•œ ์ƒ์„ธํ•œ ROC ๊ณก์„ ์„ ๋‚˜ํƒ€๋‚ธ๋‹ค.

profile
๐Ÿ“ ๋ฐ์ดํ„ฐ์‚ฌ์ด์–ธ์Šค ํ•™๋ถ€์ƒ์˜ ๊ธฐ๋ก์žฅ!

0๊ฐœ์˜ ๋Œ“๊ธ€