AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

조권휘·2025년 10월 24일

Paper review

목록 보기

10/10

자세한 내용은 논문을 참고하세요.
AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE : https://arxiv.org/abs/2010.11929

연구실 내에서 세미나를 진행하며 준비한 자료를 바탕으로 정리하는 글입니다. 궁금한 점이나 문제가 있는 부분은 댓글로 작성해주세요!

NLP 영역에서 Transformer 모델이 고안된 이후 많은 발전이 있었지만, computer vision 분야에서는 아직 CNN이 우수한 성능을 보이고 있었고, 발전된 모델의 경우 RNN정도가 있음.
NLP의 Transformer에 영감을 받아, image를 patch 단위로 나눈 뒤 patch들에 대해 linear embedding sequence 형태로 Transformer에 input으로 넣는 방식을 고안.
image patch는 NLP의 token(word)을 처리하는 방식과 동일하게 처리됨.
Transformer는 CNN에 비해 locality, equivariance와 같은 inductive bias가 적기 때문에
충분한 양의 data가 존재하지 않다면 generalize 되기 어려움.

기본적으로 Transformer의 Encoder 구조와 거의 유사함.
크게 보면 아래의 4개의 step을 따르게 됨.
- step 1) patch embedding을 구축
- step 2) learnable class embedding, patch embedding에 learnable embedding을 더하기
- step 3) Transformer encoder에 input으로 넣어서 마지막 layer에서 class embedding에 대한 output인 image representation을 도출
- step 4) MLP를 통해 image class를 분류

Input image는 $P \times P$ 크기의 패치로 나누어 총 $N=\frac{HW}{P^2}$ 개의 patch를 생성
각 patch는 flatten하여 $P^2\times C$ 의 벡터 $x_p$ 로 변한한 뒤, linear projection을 통해 embedding을 진행. 이 때 dimension은 768차원으로 변환.
이렇게 얻은 embedding patch는 transformer encoder의 input sequence로 처리됨.

Encoder를 거친 뒤 나온 feature vector에서 제일 앞에 붙였던 [CLS] 토큰에 대해 normalization, MLP layer를 거쳐 classification을 진행할 수 있음.
task, pre-training 등 여러 상황에 따라 feature vector를 사용하기도 함.

한양대학교 인공지능학과 대학원생 조권휘입니다.