๐์๋ฌธ
๐github
์ ์ฐจ ์ฌ์ค์ ์ธ ๋ฅํ์ดํฌ๋ค์ด ์์ฑ๋๋ฉฐ, ๋ฅํ์ดํฌ ํ์ง๊ฐ ์ด๋ ค์์ง๊ณ ์๋ค. ์ ํต์ ์ผ๋ก CNN์ด ๋ฅํ์ดํฌ ํ์ง์ ์ฌ์ฉ๋์ด ์๊ณ , ํนํ EfficientNet B7 ๊ธฐ๋ฐ์ ๋ฐฉ๋ฒ์ด ๊ฐ์ฅ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ฌ์ฃผ์๋ค.
๋ณธ ์ฐ๊ตฌ๋ ์ ๊ตํด์ง๋ ์ผ๊ตด ์์ฑ์ ๋ฐ๋ผ ์ผ๊ตด์ ์ด์ ์ ๋ง์ถ๊ณ ์ ํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ViT๋ฅผ CNN ๊ธฐ๋ฐ์ EfficientNet B0๊ณผ ๊ฒฐํฉํด ํน์ง ์ถ์ถ๊ธฐ๋ก ์ฌ์ฉํ์ฌ ์ข์ ์ฑ๊ณผ๋ฅผ ์ป์๋ค. ๊ธฐ์กด ์ข์ ์ฐ๊ตฌ๋ค๊ณผ ๋ฌ๋ฆฌ, distillation์ด๋ ensemble ๋ฐฉ๋ฒ์ ์ฌ์ฉํ์ง ์๊ณ , ๊ฐ์ ์์ ๋ด ์ฌ๋ฌ ์ผ๊ตด ์ฒ๋ฆฌ๋ฅผ ์ํ voting scheme๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ถ๋ก ์ ์ธ ์ ์ฐจ๋ฅผ ์ ์ํ๋ค. ๋ณธ์ฐ๊ตฌ์ ๋ชจ๋ธ์ DFDC์์ AUC 0.951 ๊ทธ๋ฆฌ๊ณ F1-score 88%๋ฅผ ๋ฌ์ฑํ๋ค.
๋ฅํ์ดํฌ ์์ฑ ๊ธฐ์ ์ ๋ฐ์ ๊ณผ ์ด ๊ธฐ์ ์ ์ ์ ๋ ์ฌ์์ง๋ ์ ๊ทผ์ฑ์ผ๋ก ์ธํด, ์ฐ๊ตฌ๋ ์กฐ์๋ ์์๊ณผ ์ค์ ์์์ ๊ตฌ๋ณํ๋ ํจ๊ณผ์ ์ธ ๋ฐฉ๋ฒ์ ์ฐพ๋ ๋ฐ ์ง์คํด์ผ ํ๋ค.
๋ณธ ๋
ผ๋ฌธ์์๋ ํนํ EfficientNet B0์ ๋ค์ํ ์ ํ์ ๋น์ ํธ๋์คํฌ๋จธ๋ฅผ ๊ฒฐํฉํ ๋ค์ํ ์๋ฃจ์
์ ๋ถ์ํ๊ณ , ์ด๋ฅผ ํ์ฌ์ ์ต์ฒจ๋จ ๊ธฐ์ ๊ณผ ๋น๊ตํ๋ค. ViT์ ๋ฌ๋ฆฌ, CNN์ ์ฌ์ ํ ์ค์ํ ์ํคํ
์ฒ์ ํน์ฑ์ ์ ์งํ๊ณ ์๋๋ฐ, ์ด๋ ๊ณต๊ฐ์ ์ง์ญ์ฑ(spatial locality)์ด๋ค. ์ด ํน์ฑ์ ์ด๋ฏธ์ง ํจ์น์ abnormalities์ ๋ฐ๊ฒฌํ๊ณ ํจ์จ์ ์ธ ๋ฐ์ดํฐ ์ฒ๋ฆฌ๋ฅผ ์ ์งํ๋ ๋ฐ ๋งค์ฐ ์ค์ํ๋ค.
๋ํ, ๋ณธ ๋
ผ๋ฌธ์์๋ ์์์ ๋ํด ์ถ๋ก ์ ์ํํ๊ธฐ ์ํ ๊ฐ๋จํ์ง๋ง ํจ๊ณผ์ ์ธ voting mechanism์ ์ ์ํ๋ค.์ด ๋ฐฉ๋ฒ๋ก ์ด ๋ ๋์ ์์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ด๋์ด๋ผ ์ ์์์ ๋ณด์ฌ์ค๋ค.
๋จผ์ ์๋ณธ ์์์์ MTCNN์ ์ฌ์ฉํด ์ผ๊ตด์ ์ฌ์ ์ ์ถ์ถํ๋ค. ๋ณธ์ฐ๊ตฌ๋ ์ฌ์ ์ถ์ถ๋ ์ผ๊ตด์ ์
๋ ฅ์ผ๋ก ๋ฐ์ ํด๋น ์ผ๊ตด์ด ์กฐ์๋์์ ํ๋ฅ ์ ์ถ๋ ฅํ๋ ๋ ๊ฐ์ง ํผํฉํ ์ปจ๋ณผ๋ฃจ์
-ํธ๋์คํฌ๋จธ ์ํคํ
์ฒ๋ฅผ ์ ์ํ๋ค.
์ด ๋ ์ํคํ
์ฒ๋ ์คํ์ ์ผ๋ก ์ง์ง์ ๊ฐ์ง ์ฌ๋ก๋ฅผ ๊ตฌ๋ณํ๋๋ก ์ง๋ ํ์ต ๋ฐฉ์์ผ๋ก ํ๋ จ๋๊ณ ์ด์ง ๋ถ๋ฅ ๋ฌธ์ ๋ก ์ค์ ํ์ฌ ํด๊ฒฐํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, Efficient ViT
์ Convolutional Cross ViT
๋ฅผ ์ ์ํ๋ค. ์ ์๋ ๋ชจ๋ธ๋ค์ ์ผ๊ตด ๋จ์๋ก ํ๋ จ๋๋ฉฐ, ์ถ๋ก ์์๋ ์๊ฐ์ ๋ฐ ์ฌ๋ฌ ์ผ๊ตด์ ์์ธก ๊ฒฐ๊ณผ๋ฅผ ์ข
ํฉํ์ฌ ์ ์ฒด ์์์ ๋ํ ๊ฒฐ๋ก ์ ๋์ถํ๋ค.
Efficient ViT๋ ๋ ๊ฐ์ ๋ธ๋ก์ผ๋ก ๊ตฌ์ฑ๋๋๋ฐ,
์ฒซ ๋ฒ์งธ๋ feature extractor๋ก ์๋ํ๋ ์ปจ๋ณผ๋ฃจ์
๋ชจ๋์ด๊ณ , ๋ ๋ฒ์งธ๋ ViT์ ๋งค์ฐ ์ ์ฌํ ์ค์ ์ Transformer Encoder์ด๋ค.
EfficientNet
์ด ๋ฅํ์ดํฌ ํ์ง์ ์ ํฉํจ์ ๊ณ ๋ คํ์ฌ, ๋ณธ ์ฐ๊ตฌ๋ EfficientNet ๊ณ์ด ์ค ๊ฐ์ฅ ์์ EfficientNet B0๋ฅผ ์
๋ ฅ ์ผ๊ตด ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๋ ์ปจ๋ณผ๋ฃจ์
์ถ์ถ๊ธฐ๋ก ์ฌ์ฉํ๋ค. ๊ตฌ์ฒด์ ์ผ๋ก, EfficientNet์ ์
๋ ฅ๋ ์ผ๊ตด์์ 7ร7 ํฝ์
๋ก ์ด๋ฃจ์ด์ง ์ฒญํฌ๋ณ๋ก ์๊ฐ์ ํน์ง์ ์์ฑํ๋ค. ๊ทธ๋ฐ ๋ค์ ๊ฐ ๊ณต๊ฐ ์์น์ ํน์ง์ linear projection์ ๊ฑฐ์ณ ViT์ ์ํด ์ถ๊ฐ๋ก ์ฒ๋ฆฌ๋๋ค. ์ด ๊ณผ์ ์์ CLS ํ ํฐ์ ์ฌ์ฉํ์ฌ ์ด์ง ๋ถ๋ฅ ์ ์๋ฅผ ์์ฑํ๋ค. (์ํคํ
์ฒ - Fig.1a)
EfficientNet B0 feature extractor๋ ์ฌ์ ํ์ต๋ ๊ฐ์ค์น๋ก ์ด๊ธฐํ๋๊ณ , ๋ง์ง๋ง ๋ ์ด์ด๋ฅผ ์กฐ์ ํ์ฌ ์ด ํน์ ๋ค์ด์คํธ๋ฆผ ์์ ์ ๋ ์ ํฉํ๊ณ ์ผ๊ด๋ ํผ์ฒ ์ถ์ถ์ ์ํํ ์ ์๋๋ก fine-tuning๋๋ค. EfficientNet B0 ์ปจ๋ณผ๋ฃจ์ ๋คํธ์ํฌ์์ ์ถ์ถ๋ ํน์ง์ CNN์ด ์ด๋ฏธ ์ด๋ฏธ์ง์์ ์ค์ํ ์ ์์ค์ ๊ตญ๋ถ ์ ๋ณด๋ฅผ ํฌํจํ๊ณ ์๊ธฐ ๋๋ฌธ์ ViT์ ํ์ต ๊ณผ์ ์ ๋จ์ํํ๋ค.
Efficient ViT์ฒ๋ผ ์์ ํจ์น๋ง ์ฌ์ฉํ๋ ์ํคํ ์ฒ๋ก ์ ํํ๋ ๊ฒ์ ์ต์ ์ ์ ํ์ด ์๋ ์ ์๋ค. ์๋ํ๋ฉด ๋ฅํ์ดํฌ ์์ฑ ๊ธฐ๋ฒ์ด ๋์ ํ artifacts์ localํ ์๋ ์์ง๋ง, globalํ ์๋ ์๊ธฐ ๋๋ฌธ์ด๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ๋ณธ ์ฐ๊ตฌ๋ Convolutional Cross ViT ์ํคํ ์ฒ๋ฅผ ๋์ ํ๋ค. Convolutional Cross ViT๋ Efficient ViT์ ๋ค์ค ์ค์ผ์ผ Transformer ์ํคํ ์ฒ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ค๊ณ๋์๋ค.
Convolutional Cross ViT
๋ ๋ ๊ฐ์ ๋ถ๋ฆฌ๋ branch๋ฅผ ์ฌ์ฉํ๋๋ฐ, S-branch
๋ ๋ ์์ ํจ์น๋ฅผ ์ฒ๋ฆฌํ๊ณ , L-branch
๋ ๋ ๋์ receptive field๋ฅผ ๊ฐ์ง๊ธฐ ์ํด ๋ ํฐ ํจ์น๋ฅผ ์ฒ๋ฆฌํ๋ค. ๋ branch์์ Transformer Encoder์ ์ํด ์์ฑ๋ ์๊ฐ์ ํ ํฐ์ cross attention๋ฅผ ํตํด ๊ฒฐํฉ๋์ด, ๋ ๊ฒฝ๋ก ๊ฐ์ ์ง์ ์ ์ธ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ค. ๋ง์ง๋ง์ผ๋ก ๋ branch์์ ์ถ๋ ฅ๋ CLS ํ ํฐ์ ๊ฐ๊ฐ ๋ ๊ฐ์ ๋ณ๋ logit์ ์์ฑํ๋ ๋ฐ ์ฌ์ฉ๋๋ค. ์ด logit์ ํฉ์ฐ๋ ํ ์ต์ข
์ ์ผ๋ก sigmoid ํจ์๋ฅผ ํตํด ํ๋ฅ ๋ก ๋ณํ๋๋ค. (์ํคํ
์ฒ - Fig.1b)
์ฌ๊ธฐ์์๋ ๋ ๊ฐ์ง ์๋ก ๋ค๋ฅธ CNN ๋ฐฑ๋ณธ์ ์ฌ์ฉํ๋๋ฐ, ์ฒซ ๋ฒ์งธ๋ EfficientNet B0๋ก S-๋ถ๊ธฐ์์ 7ร7 ์ด๋ฏธ์ง ํจ์น์ L-๋ถ๊ธฐ์์ 54ร54 ์ด๋ฏธ์ง ํจ์น๋ฅผ ์ฒ๋ฆฌํฉ๋๋ค. ๋ ๋ฒ์งธ๋ Convolutional Vision Transformer(ConViT)
์ CNN์ผ๋ก, S-๋ถ๊ธฐ์์ 7ร7 ์ด๋ฏธ์ง ํจ์น์ L-๋ถ๊ธฐ์์ 64ร64 ์ด๋ฏธ์ง ํจ์น๋ฅผ ์ฒ๋ฆฌํ๋ค.
[ConViT]
- (Wodajo, D., Atnafu, S.: Deepfake video detection using convolutional vision transformer. arXiv preprint arXiv:2102.11126 (2021))
- CNN๊ณผ Vision Transformer๋ฅผ ๊ฒฐํฉํ ์ด ์ํคํ ์ฒ๊ฐ ๋ฅํ์ดํฌ ํ์ง์์ ์ ํต์ ์ธ CNN์ด๋ ๋จ์ผ Transformer ์ํคํ ์ฒ๋ณด๋ค ๋ ํจ๊ณผ์ ์ด๋ผ๊ณ ์ฃผ์ฅ
- ํนํ CNN์ ์ด๋ฏธ์ง์ ์ ์์ค ๋ฐ ๊ตญ์ ์ ๋ณด๋ฅผ ์ ํ์ตํ๋ฉฐ, Transformer๋ ๊ธ๋ก๋ฒ ์ ๋ณด์ ํจํด์ ๋ ์ ํ์ตํ๋ค๋ ์ ์์ ์ํธ ๋ณด์์ ์
- ์ฆ ์ด CNN์ S-๋ถ๊ธฐ์ L-๋ถ๊ธฐ์์ ์๋ก ๋ค๋ฅธ ํฌ๊ธฐ์ ํจ์น๋ฅผ ์ฒ๋ฆฌํ๋ฉฐ, ๋ฉํฐ์ค์ผ์ผ ์ ๋ณด๋ฅผ Transformer์ ๊ฒฐํฉํด ๋ฅํ์ดํฌ ํ์ง ์ฑ๋ฅ์ ๋์ด๋ ๋ฐ ์ค์ํ ์ญํ ์ ํจ
MTCNN
์ ์ฌ์ฉํด ๋น๋์ค์์ ์ผ๊ตด ์ถ์ถAlbumentations
๋ฅผ ์ฌ์ฉํด ๋ธ๋ฌ, ๊ฐ์ฐ์์ ๋
ธ์ด์ฆ, ์ ์น, ํ์ ๋ฑ ๋ค์ํ ํฌ๊ธฐ ์กฐ์ ์ ํฌํจํ ๋ณํ ์ ์ฉ
0.55์ real/fake threshold๋ฅผ ์ค์ ํ๋ค. ๊ทธ๋ฌ๋ ๋น๋์ค ๋ด ๊ฐ๋ณ ์ผ๊ตด์ ๋ํ ๋ชจ๋ ์ ์๋ฅผ ๋ฌด์์๋ก ํ๊ท ํํ๋ ๋์ , ์ฝ๊ฐ ๋ ์ ๊ตํ ํฌํ ์ ์ฐจ๋ฅผ ์ฌ์ฉํ๋ค.
๊ตฌ์ฒด์ ์ผ๋ก, ์ ์๋ฅผ ๋ฐฐ์ฐ์ ์๋ณ์๋ณ๋ก ๊ทธ๋ฃนํํ์ฌ ๊ฒฐํฉํ๋ค. ์ผ๊ตด ์๋ณ์๋ ์ฌ์ฉํ MTCNN ์ผ๊ตด ํ์ง๊ธฐ์ ์ถ๋ ฅ์ผ๋ก ์ ๊ณต๋๋ค. ์ฌ๋ฌ ๋ฐฐ์ฐ๋ก๋ถํฐ ์ป์ ์ ์๋ ์๊ฐ์ ๊ฑธ์ณ ํ๊ท ํ๋์ด ์ผ๊ตด์ด ๊ฐ์ง์ผ ํ๋ฅ ์ ์ฐ์ถํ๋ค. ๊ทธ๋ฐ ๋ค์ ๋ฐฐ์ฐ๋ณ ์ ์๋ hard voting์ ์ฌ์ฉํ์ฌ ๊ฒฐํฉ๋๋ค. ํนํ ์๊ณ๊ฐ์ ์ด๊ณผํ ๋ฐฐ์ฐ์ ์ผ๊ตด์ด ์ ์ด๋ ํ๋๋ผ๋ ์๋ ๊ฒฝ์ฐ, ํด๋น ๋น๋์ค๋ ๊ฐ์ง๋ก ๋ถ๋ฅ๋๋ค. ๋ณธ ์ฐ๊ตฌ๋ ์ด ์ ๊ทผ ๋ฐฉ์์ด ํ ๋ฐฐ์ฐ์ ์ผ๊ตด๋ง ์กฐ์๋ ๋น๋์ค๋ฅผ ๋ ์ ์ฒ๋ฆฌํ๋ ๋ฐ ์ ์ฉํ๋ค๊ณ ์ฃผ์ฅํ๋ค.
๋ํ inferenceํ ๋, ๊ณ ๋ ค๋๋ ์ผ๊ตด์ ์๊ฐ ๋ณํจ์ ๋ฐ๋ผ ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋ณํ๋์ง ํ๊ฐํ๋ ๊ฒ๋ ์ค์ํ๊ธฐ์, ํ
์คํธ๊ฐ ๊ฐ๋ฅํ ๊ฐ๋ณ๊ณ ํจ์จ์ ์ผ๋ก ์ํ๋ ์ ์๋๋ก, ๋คํธ์ํฌ ์ค ํ๋๋ฅผ ์ฌ์ฉํ์ฌ ํ
์คํธ ์ ๊ณ ๋ ค๋๋ ์ผ๊ตด ์๊ฐ F1 ์ ์์ ์ด๋ค ์ํฅ์ ๋ฏธ์น๋์ง ์คํํ๋ค(Fig.2b).
30๊ฐ ์ด์์ ์ผ๊ตด์ ์ฌ์ฉํ๋ ๊ฒ์ ํต๊ณ์ ์ผ๋ก ๋ฌด์๋ฏธํ๋ฉฐ 30๊ฐ ์ดํ์ ์ผ๊ตด์ ์ฌ์ฉํ ๋ ์์ ์ ์ธ ์ฑ๋ฅ์ด ๋ฌ์ฑ๋๋ค๋ ๊ฒ์ ๋ฐ๊ฒฌํ๋ค.
ํ 1์ EfficientNet์ ์ฌ์ฉํ์ฌ ๊ฐ๋ฐํ ๋ชจ๋ ๋ชจ๋ธ์ด ConViT๋ณด๋ค AUC์ F1 ์ ์์์ ํจ์ฌ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํ์์ ๋ณด์ฌ์ค๋ค. ์ด๋ EfficientNet๊ตฌ์กฐ๊ฐ ์ด ์์
์ ํ์ ๋ ์ ํฉํ ๊ฐ๋ฅ์ฑ์ ์
์ฆํ๋ ๊ฒฐ๊ณผ์ด๋ค. ๋ํ, Cross Vision Transformer๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ํ ๋ชจ๋ธ๋ค์ด ๊ฐ์ฅ ์ฐ์ํ ๊ฒฐ๊ณผ๋ฅผ ์ป์ผ๋ฉฐ, local ๋ฐ globalํ ์ด๋ฏธ์ง ์ฒ๋ฆฌ๋ฅผ ๊ฒฐํฉํ๋ ๊ฒ์ด ๋ ๋์ ์ด์ ํ์ง๋ก ์ด์ด์ง๋ค๋ ์ด๋ก ์ ํ์ธํ ์ ์์๋ค.
Cross Vision Transformer ๊ธฐ๋ฐ ๋ชจ๋ธ๋ค์ EfficientNet B0๋ฅผ patch extractor๋ก ์ฌ์ฉํ ๋ ํนํ ๋๋๋ฌ์ง ํฅ์์ ๋ณด์ฌ์ค๋ค. AUC์ F1 ์ ์๋ ๋ค๋ฅธ ์ต์ ๋ฐฉ๋ฒ๋ค๋ณด๋ค ์ฝ๊ฐ ๋ฎ์ง๋ง, ์ด๋ฌํ ๊ฒฐ๊ณผ๋distillation๋ ensemble๊ธฐ์ ์ ์ฌ์ฉํ์ง ์๊ณ ์ป์ ๊ฒ์ด๋ค. ์ด๋ฌํ ๊ธฐ์ ์ ํ๋ จ๊ณผ ์ถ๋ก ์ ๋์ฑ ๋ณต์กํ๊ฒ ๋ง๋ค๊ธฐ ๋๋ฌธ์ ๋ณธ ์ฐ๊ตฌ์ ์ ๊ทผ ๋ฐฉ์์ด ๋จ์ํ๋ฉด์๋ ํจ๊ณผ์ ์ด๋ผ๋ ์ ์ ๊ฐ์กฐํ๋ค. ์ค์ ๋ก, EfficientNet ๊ธฐ๋ฐ์ Cross Vision Transformer๋ ์์ ๋ฐฉ๋ฒ๋ค์ ๋นํด 1/3 ์ดํ์ ํ๋ผ๋ฏธํฐ๋ง ์ฌ์ฉํ๋ฉด์๋ ๊ฒฝ์๋ ฅ ์๋ ์ฑ๋ฅ์ ๋ฌ์ฑํ๋ค.
๋ํ, ํ 1์ ๋ง์ง๋ง ๋ ํ์์๋ inference ์ ๋ชจ๋ ์ผ๊ตด ์ ์๋ฅผ ๋จ์ํ ํ๊ท ๋ด๋ ๋ฐฉ์๊ณผ ๋น๊ตํ์ ๋, q๋ณธ์ฐ๊ตฌ๊ฐ ์ ์ํ ํฌํ ์ ์ฐจ๋ฅผ ์ฌ์ฉํ๋ฉด ๊ฒฐ๊ณผ๊ฐ ์ฝ๊ฐ ๋ ๊ฐ์ ๋ ์ ์์์ ๋ณด์ฌ์ค๋ค. ์ด๋ ์ด ๋ฐฉ๋ฒ์ด ๋ณด๋ค ์ธ๋ฐํ๊ณ ์์ ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ์ ๊ณตํจ์ ์๋ฏธํ๋ค. Fig.3์์๋ DFDC ๋ฐ์ดํฐ์
์ ๋ํด ๋ณธ ์ฐ๊ตฌ์ ์ํคํ
์ฒ์ ๋ค๋ฅธ ๋ชจ๋ธ๋ค์ ๋น๊ตํ ์์ธํ ROC ๊ณก์ ์ ๋ํ๋ธ๋ค.