๐Ÿ–ผ๏ธ SimMIM: a Simple Framework for Masked Image Modeling

ukkikkiaiยท2024๋…„ 5์›” 27์ผ

Euron ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋ชฉ๋ก ๋ณด๊ธฐ
12/13

Abstract

๋ณธ ๋…ผ๋ฌธ์€ ๋‹จ์ˆœํ•œ ํ”„๋ ˆ์ž„์›Œํฌ SimMIM์„ ์ œ์•ˆํ•จ. ๋งˆ์Šคํฌ๋œ ์ด๋ฏธ์ง€ ๋ชจ๋ธ๋ง์„ ์œ„ํ•ด ํŠน๋ณ„ํ•œ ๋””์ž์ธ ์—†์ด ๊ฐ„๋‹จํ•˜๊ฒŒ ๊ตฌํ˜„๋˜์—ˆ์œผ๋ฉฐ, ๊ฐ•๋ ฅํ•œ ํ‘œํ˜„ ํ•™์Šต ์„ฑ๋Šฅ์„ ๋ณด์˜€์Œ. ๋žœ๋ค ๋งˆ์Šคํ‚น๊ณผ raw ํ”ฝ์…€์˜ RGB ๊ฐ’ ์˜ˆ์ธก์—์„œ๋Š” ๋ณต์žกํ•œ ์„ค๊ณ„ ์—†์ด๋„ ํšจ๊ณผ์ ์ด์—ˆ์Œ. ViT-B๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ImageNet-1K์—์„œ ๋†’์€ ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์˜€์Œ. ๋ณธ ์—ฐ๊ตฌ๋ฅผ ํ†ตํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ๋ชจ๋ธ ํ›ˆ๋ จ์˜ ๋ฐ์ดํ„ฐ ๋ถ€์กฑ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์—ฌ์ง.

1. Introduction

๐Ÿ–ผ๏ธ Masked Signal Modeling: ์ž…๋ ฅ ์‹ ํ˜ธ์˜ ์ผ๋ถ€๋ถ„์„ ๋งˆ์Šคํ‚นํ•˜๊ณ  ์ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ์ž‘์—…์œผ๋กœ, self-supervised learning์—์„œ ๋งŽ์ด ์‚ฌ์šฉ๋˜๊ณ  ์žˆ์Œ.

๐Ÿšจ NLP์—์„œ๋Š” ์ด๋Ÿฌํ•œ ์ ‘๊ทผ๋ฒ•์„ ํ†ตํ•˜์—ฌ ๋‹ค์–‘ํ•œ ๋ชจ๋ธ์— ์ผ๋ฐ˜ํ™”ํ•˜์˜€์ง€๋งŒ, ์ปดํ“จํ„ฐ ๋น„์ „์—์„œ๋Š” ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ ๊ฐ„์˜ ์ฐจ์ด๋กœ ์ธํ•ด ์–ด๋ ค์›€์ด ์žˆ์—ˆ์Œ.

โžก๏ธ ์ด๋ฅผ ๊ทน๋ณตํ•˜๊ธฐ ์œ„ํ•ด ๋ณธ ๋…ผ๋ฌธ์—์„œ๋Š” ๋ณต์žกํ•œ ์„ค๊ณ„ ์—†์ด๋„ ์‹œ๊ฐ์  ์‹ ํ˜ธ์˜ ํŠน์„ฑ๊ณผ ์ž˜ ๋งž๋Š” ๋‹จ์ˆœํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•จ.

(1) ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํŒจ์น˜์˜ ๋žœ๋ค ๋งˆ์Šคํ‚น, (2) ์„ ํ˜• ๋ ˆ์ด์–ด๋ฅผ ์‚ฌ์šฉํ•œ ๋งˆ์Šคํ‚น๋œ ์˜์—ญ์˜ ์›์‹œ ํ”ฝ์…€ ๊ฐ’ ํšŒ๊ท€, (3) โ„“1 ์†์‹ค ์‚ฌ์šฉ์œผ๋กœ ๊ตฌ์„ฑ

โœ… ์ œ์•ˆ๋œ SimMIM ์ ‘๊ทผ ๋ฐฉ์‹์€ ํšจ์œจ์ ์ธ ํ‘œํ˜„ ํ•™์Šต์— ๋งค์šฐ ํšจ๊ณผ์ 

ViT-B๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ImageNet-1K์—์„œ 83.8%์˜ ์ƒ์œ„ 1์œ„ ์„ธ๋ถ€ ์กฐ์ • ์ •ํ™•๋„๋ฅผ ๋‹ฌ์„ฑํ•˜์—ฌ ์ด์ „ ์ตœ๊ณ  ์ ‘๊ทผ ๋ฐฉ์‹๋ณด๋‹ค +0.6%๋ฅผ ๋Šฅ๊ฐ€ํ•จ. + ๋” ํฐ ๋ชจ๋ธ๋กœ ํ™•์žฅ ๊ฐ€๋Šฅํ•จ์„ ์ž…์ฆ

๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง(MLM)๊ณผ ๋งˆ์Šคํฌ ์ด๋ฏธ์ง€ ๋ชจ๋ธ๋ง(MIM)

  • ์ž์—ฐ์–ด ์ฒ˜๋ฆฌ(NLP) ๋ฐ ์ปดํ“จํ„ฐ ๋น„์ „ ๋ถ„์•ผ์˜ ์ž๊ธฐ ์ง€๋„ ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹

โžก๏ธ MLM์€ ๋ฌธ์žฅ ๋˜๋Š” ๋ฌธ์žฅ ์Œ/์…‹์˜ ๊ฐ€์‹œ์  ํ† ํฐ์„ ์ฃผ์–ด์ง„ ์ž…๋ ฅ์˜ ๋ณด์ด์ง€ ์•Š๋Š” ํ† ํฐ์„ ์˜ˆ์ธกํ•˜์—ฌ ํ‘œํ˜„์„ ํ•™์Šต

โžก๏ธ MIM์€ NLP์˜ MLM ์ž‘์—…๊ณผ ๋ณ‘ํ–‰ํ•˜์—ฌ ์ง„ํ–‰๋˜์—ˆ์ง€๋งŒ ์˜ค๋žซ๋™์•ˆ ๋น„์ฃผ๋ฅ˜; SimMIM์€ ์ด๋Ÿฌํ•œ ๋ณต์žกํ•œ ๋””์ž์ธ๊ณผ๋Š” ๋Œ€์กฐ์ ์œผ๋กœ ๊ทน๋„๋กœ ๊ฐ„๋‹จํ•œ ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์ œ์‹œํ•˜์—ฌ ์œ ์‚ฌํ•˜๊ฑฐ๋‚˜ ๋” ๋‚˜์€ ํšจ๊ณผ๋ฅผ ๋ณด์—ฌ์คŒ.

์žฌ๊ตฌ์„ฑ ๊ธฐ๋ฐ˜ ๋ฐฉ๋ฒ•

  • ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ๊ด€๋ จ; ์˜คํ† ์ธ์ฝ”๋”๋ฐฉ์‹

โžก๏ธ ๊ทธ๋Ÿฌ๋‚˜ ๋ณธ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ๋Š” ๋‹ค๋ฅด๊ฒŒ ๋ณด์ด์ง€ ์•Š๋Š” ์‹ ํ˜ธ์˜ ์ƒ์„ฑ ๋˜๋Š” ์˜ˆ์ธก์ด ์•„๋‹Œ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์„ ๊ธฐ๋ฐ˜์œผ๋กœ ํ•จ.

+) ๋˜ํ•œ ๋ณธ ๋…ผ๋ฌธ์˜ ์ ‘๊ทผ ๋ฐฉ์‹์€ ์••์ถ• ๊ฐ์ง€์™€๋„ ๊ด€๋ จ

  • ์ž…๋ ฅ ์‹ ํ˜ธ์— ๋Œ€ํ•ด ๋งค์šฐ ์ž‘์€ ์ผ๋ถ€ ์ž…๋ ฅ ์ด๋ฏธ์ง€ ํŒจ์น˜๋กœ๋„ ์ž˜ ์ž‘๋™ํ•  ์ˆ˜ ์žˆ๋Š” ์ธ๊ณผ์  ํ‘œํ˜„ ์ƒ์„ฑ ๊ฐ€๋Šฅ

์ž๊ฐ€ ์ง€๋„ ํ•™์Šต ์ ‘๊ทผ ๋ฐฉ์‹

  • ๋‹ค๋ฅธ ์ž‘์—…๋“ค์€ ๋Œ€์กฐ์  ํ•™์Šต ๋ฐฉ๋ฒ•์„ ์‚ฌ์šฉ

โžก๏ธ ๋ณธ ์—ฐ๊ตฌ๋Š” ์ž๊ธฐ ์ง€๋„ ์‹œ๊ฐ์  ํ‘œํ˜„ ํ•™์Šต์˜ ์ „์ œ ์ž‘์—…์œผ๋กœ ๋งˆ์Šคํฌ ์–ธ์–ด ๋ชจ๋ธ๋ง ์ˆ˜ํ–‰

3. Approach

3.1. A Masked Image Modeling Framework

๐Ÿ’กSimMIM์€ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ์ผ๋ถ€๋ฅผ ๊ฐ€๋ฆฌ๊ณ  ๊ฐ€๋ ค์ง„ ์˜์—ญ์˜ ์›๋ณธ ์‹ ํ˜ธ๋ฅผ ์˜ˆ์ธกํ•˜์—ฌ ํ‘œํ˜„์„ ํ•™์Šต

โžก๏ธ ํ”„๋ ˆ์ž„์›Œํฌ๋Š” 4๊ฐ€์ง€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ๋กœ ์ด๋ฃจ์–ด์ง
(1) ๋งˆ์Šคํ‚น ๋ฐฉ์‹
(2) ์ธ์ฝ”๋” ์•„ํ‚คํ…์ฒ˜
(3) ์˜ˆ์ธก ํ—ค๋“œ
(4) ์˜ˆ์ธก ๋Œ€์ƒ

3.2. Masking Strategy For input transformation

๋งˆ์Šคํ‚น๋œ ์˜์—ญ์˜ ์ž…๋ ฅ ๋ณ€ํ™˜์— ๋Œ€ํ•ด, NLP์™€ BEiT์™€ ๊ฐ™์€ ๊ธฐ์ˆ ๋“ค์„ ๋”ฐ๋ผ ๊ฐ€๋ ค์ง„ ํŒจ์น˜๋งˆ๋‹ค ํ•™์Šต ๊ฐ€๋Šฅํ•œ ๋งˆ์Šคํฌ ํ† ํฐ ๋ฒกํ„ฐ๋ฅผ ์‚ฌ์šฉํ•จ.

โžก๏ธ ํ† ํฐ ๋ฒกํ„ฐ์˜ ์ฐจ์›์€ ๋‹ค๋ฅธ ๊ฐ€์‹œ์  ํŒจ์น˜ ํ‘œํ˜„์˜ ์ฐจ์›๊ณผ ๋™์ผํ•˜๊ฒŒ ์„ค์ •

ํŒจ์น˜ ์ •๋ ฌ ๋ฌด์ž‘์œ„ ๋งˆ์Šคํ‚น

์ด๋ฏธ์ง€ ํŒจ์น˜๋Š” ViT ๊ธฐ๋ณธ ์ฒ˜๋ฆฌ ๋‹จ์œ„์ด๋ฉฐ, ํŒจ์น˜ ์ˆ˜์ค€์—์„œ ๋งˆ์Šคํ‚น์„ ํ•˜๋Š” ๊ฒƒ์ด ํŽธ๋ฆฌ

  • ๊ฐ ํŒจ์น˜๋Š” ์™„์ „ํžˆ ๊ฐ€์‹œ์ ์ด๊ฑฐ๋‚˜ ์™„์ „ํžˆ ๊ฐ€๋ ค์ง
  • Swin Transformer์˜ ๊ฒฝ์šฐ, ์„œ๋กœ ๋‹ค๋ฅธ ํ•ด์ƒ๋„ ๋‹จ๊ณ„์˜ ๋™๋“ฑํ•œ ํŒจ์น˜ ํฌ๊ธฐ๋ฅผ ๊ณ ๋ คํ•˜๊ณ  ๋งˆ์ง€๋ง‰ ๋‹จ๊ณ„์˜ ํŒจ์น˜ ํฌ๊ธฐ์ธ 32ร—32๋ฅผ ์ฑ„ํƒ
  • ViT์˜ ๊ฒฝ์šฐ, ๊ธฐ๋ณธ ๋งˆ์Šคํฌ๋œ ํŒจ์น˜ ํฌ๊ธฐ๋กœ 32ร—32๋ฅผ ์ฑ„ํƒ

๊ธฐํƒ€ ๋งˆ์Šคํ‚น ์ „๋žต

๐Ÿ“Œ ์ด์ „ ์—ฐ๊ตฌ์—์„œ ์‹œ๋„ํ•œ ๋‹ค๋ฅธ ๋งˆ์Šคํ‚น ์ „๋žต

1) ์ค‘์•™ ์˜์—ญ ๋งˆ์Šคํ‚น: ์ด๋ฏธ์ง€์—์„œ ๋ฌด์ž‘์œ„๋กœ ์ด๋™ ๊ฐ€๋Šฅํ•˜๋„๋ก ์™„ํ™”

2) Complex ๋ธ”๋ก๋ณ„ ๋งˆ์Šคํ‚น: ๋งˆ์Šคํฌ ์ „๋žต์„ 16ร—16 ๋ฐ 32ร—32์˜ ๋‘ ๊ฐ€์ง€ ๋งˆ์Šคํฌ ํŒจ์น˜ ํฌ๊ธฐ์— ๋Œ€ํ•ด ์‹œ๋„

3.3. Prediction Head

์˜ˆ์ธก ํ—ค๋“œ๋Š” ์ธ์ฝ”๋” ์ถœ๋ ฅ๊ณผ ์ผ์น˜ํ•˜๋Š” ์ž…๋ ฅ์„ ๊ฐ€์ง€๊ณ  ์ถœ๋ ฅ์ด ์˜ˆ์ธก ๋Œ€์ƒ์„ ์„ฑ์ทจํ•  ๋•Œ๊นŒ์ง€ ์ž„์˜์˜ ํ˜•ํƒœ์™€ ์šฉ๋Ÿ‰์„ ๊ฐ€์งˆ ์ˆ˜ ์žˆ์Œ.

๐Ÿ“Œ ์ผ๋ถ€ ์ดˆ๊ธฐ ์ž‘์—…์€ ์ž๋™ ์ธ์ฝ”๋”๋ฅผ ๋”ฐ๋ผ ๋ฌด๊ฑฐ์šด ์˜ˆ์ธก ํ—ค๋“œ(๋””์ฝ”๋”)๋ฅผ ์‚ฌ์šฉ

โžก๏ธ ์ด ๋…ผ๋ฌธ์—์„œ๋Š” ์˜ˆ์ธก ํ—ค๋“œ๋ฅผ ๊ทน๋„๋กœ ๊ฐ€๋ฒผ์šด ์„ ํ˜• ๊ณ„์ธต์œผ๋กœ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คŒ.

3.4 Prediction Target

์›์‹œ ํ”ฝ์…€ ๊ฐ’ Regression

ํ”ฝ์…€ ๊ฐ’์€ ์ƒ‰ ๊ณต๊ฐ„์—์„œ ์—ฐ์†์  + ๊ฐ€์žฅ ์ง์ ‘์ ์ธ ์˜ต์…˜์€ ํšŒ๊ท€๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€๋ ค์ง„ ์˜์—ญ์˜ ์›์‹œ ํ”ฝ์…€์„ ์˜ˆ์ธกํ•˜๋Š” ๊ฒƒ!

  • ์ผ๋ฐ˜์ ์œผ๋กœ ๋น„์ „ ์•„ํ‚คํ…์ฒ˜๋Š” ๋‹ค์šด์ƒ˜ํ”Œ๋ง๋œ ํ•ด์ƒ๋„์˜ ํ”ผ์ฒ˜ ๋งต์„ ์ƒ์„ฑ

๐Ÿ’ก ex) ViT์—์„œ๋Š” 16ร—์ด๊ณ  ๋Œ€๋ถ€๋ถ„์˜ ๋‹ค๋ฅธ ์•„ํ‚คํ…์ฒ˜์—์„œ๋Š” 32x โžก๏ธ ์ž…๋ ฅ ์ด๋ฏธ์ง€์˜ ์ „์ฒด ํ•ด์ƒ๋„์—์„œ ๋ชจ๋“  ํ”ฝ์…€ ๊ฐ’์„ ์˜ˆ์ธกํ•˜๊ธฐ ์œ„ํ•ด, ํ”ผ์ฒ˜ ๋งต์˜ ๊ฐ ํ”ผ์ฒ˜ ๋ฒกํ„ฐ๋ฅผ ์›๋ž˜ ํ•ด์ƒ๋„๋กœ ๋‹ค์‹œ ๋งคํ•‘ํ•˜๊ณ  ์ด ๋ฒกํ„ฐ๊ฐ€ ํ•ด๋‹น ์›์‹œ ํ”ฝ์…€์˜ ์˜ˆ์ธก์„ ๋‹ด๋‹นํ•˜๋„๋ก ํ•จ.

4. Experiments

4.1 Ablation Study

  • ํ•ด๋‹น ์—ฐ๊ตฌ๋Š” Swin-B๋ฅผ ๊ธฐ๋ณธ ๋ฐฑ๋ณธ์œผ๋กœ ์‚ฌ์šฉ, self supervvised learning๊ณผ AdamW ์˜ตํ‹ฐ๋งˆ์ด์ €, ์ฝ”์‚ฌ์ธ ํ•™์Šต ์Šค์ผ€์ค„๋Ÿฌ๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ, 100 ์—ํญ ๋™์•ˆ ํ›ˆ๋ จ

  • ๋ฏธ์„ธ ์กฐ์ •์—์„œ๋„ AdamW ์˜ตํ‹ฐ๋งˆ์ด์ €์™€ 100 ์—ํญ ํ›ˆ๋ จ, ์ฝ”์‚ฌ์ธ ํ•™์Šต ์Šค์ผ€์ค„๋Ÿฌ๋ฅผ ์‚ฌ์šฉโžก๏ธ๋ฐ์ดํ„ฐ ์ฆ๊ฐ•์„ ์œ„ํ•ด ๋‹ค์–‘ํ•œ ์ „๋žต์„ ์ฑ„ํƒํ•จ.

๋งˆ์Šคํ‚น ์ „๋žต์˜ ํšจ๊ณผ

โœ… ๋‹ค์–‘ํ•œ ๋งˆ์Šคํ‚น ๋น„์œจ์—์„œ ๋‹ค๋ฅธ ์ ‘๊ทผ ๋ฐฉ์‹์˜ ๋ฏธ์„ธ ์กฐ์ • ์ •ํ™•๋„ ์œ„์˜ ํ‘œ 1์„ ํ†ตํ•ด ํ™•์ธ ๊ฐ€๋Šฅ

  1. ๊ฐ„๋‹จํ•œ ๋ฌด์ž‘์œ„ ๋งˆ์Šคํ‚น ์ „๋žต์˜ ์ตœ์ƒ์˜ ์ •ํ™•๋„๊ฐ€ ๋‹ค๋ฅธ ํŠน๋ณ„ํžˆ ์„ค๊ณ„๋œ ๋ฐฉ์‹(์˜ˆ: ๋ธ”๋ก๋ณ„ ๋งˆ์Šคํ‚น)๋ณด๋‹ค ๋†’์•˜์Œ.

  2. ํฐ ๋งˆ์Šคํฌ ํŒจ์น˜ ํฌ๊ธฐ์ธ 32๋ฅผ ์ฑ„ํƒํ•  ๋•Œ ์ด ๊ฐ„๋‹จํ•œ ์ „๋žต์ด ๋„“์€ ๋ฒ”์œ„์˜ ๋งˆ์Šคํ‚น ๋น„์œจ(10%-70%)์—์„œ ์•ˆ์ •์ ์œผ๋กœ ์ž˜ ์ˆ˜ํ–‰๋˜๋Š” ๊ฒƒ์„ ๊ด€์ฐฐ

โ“Prediction์ด๋ƒ Reconstruction์ด๋ƒ

์˜คํ† ์ธ์ฝ”๋”์™€ ๋งˆ์Šคํ‚น๋œ ์ด๋ฏธ์ง€ ๋ชจ๋ธ๋ง์€ ๋ชจ๋‘ ์›๋ž˜ ์‹ ํ˜ธ๋ฅผ ๋ณต์›ํ•จ์œผ๋กœ์จ ๋„คํŠธ์›Œํฌ๋ฅผ ํ•™์Šตํ•˜์ง€๋งŒ, ๊ฐ€์‹œ์ ์ธ ์‹ ํ˜ธ์˜ ์žฌ๊ตฌ์„ฑ๊ณผ ๋ณด์ด์ง€ ์•Š๋Š” ์‹ ํ˜ธ์˜ ์˜ˆ์ธก์— ๋Œ€ํ•œ ์žฌ๊ตฌ์„ฑ์„ ๋‹ค๋ฃธ.

โžก๏ธ ๋ณธ ๋…ผ๋ฌธ์˜ ํ”„๋ ˆ์ž„์›Œํฌ์—์„œ๋Š” ์ž…๋ ฅ์˜ ๊ฐ€์‹œ์  ํŒจ์น˜์˜ ์›์‹œ ํ”ฝ์…€ ๊ฐ’์„ ํšŒ๊ท€ํ•˜๋Š” ๋ฐฉ์‹์œผ๋กœ ์žฌ๊ตฌ์„ฑ ์ž‘์—…์„ ๊ตฌํ˜„

ํ…Œ์ด๋ธ” 4: ๋งˆ์Šคํฌ๋œ ์˜์—ญ๋งŒ ์˜ˆ์ธกํ•˜๋Š” ๋ฐฉ์‹์ด ๋ชจ๋“  ์ด๋ฏธ์ง€ ํ”ฝ์…€์„ ๋ณต์›ํ•˜๋Š” ๋ฐฉ์‹๋ณด๋‹ค ํ›จ์”ฌ ์šฐ์ˆ˜ํ•œ ๊ฒฐ๊ณผ๋ฅผ ๋ณด์—ฌ์คŒ.

profile
์œ ์ •๋ฏผ

0๊ฐœ์˜ ๋Œ“๊ธ€