논문 리뷰 : An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (ICLR, 2021)

PDF : https://arxiv.org/pdf/2010.11929.pdf CODE : https://github.com/google-research/vision_transformer 논문 요약 > - NLP분야에서 거둔 트랜스포머의 성과와 대조되게, Vision 분야에서는 여전히 CNNs이 지배적이다. 본 논문에서는 vision분야에서 cnn모델의 사용이 필수불가결한 것이 아님을 보여준다. 이미지 데이터에 NLP분야에서 주로 사용되는 pure transformer 모델을 적용할 수 있고 image classification task를 매우 잘 수행하는 것을 보여준다. vision transformer가 많은 양의 데이터에 대하여 사전학습을 하였을 때 mid-size 혹은 small-size의 이미지 인식 task(Image Net, CIFAR-100, VTAB,etc.)에 대하여 cnn에 필적하는 매우 훌륭한 성능을 달성할 수 있음을 보여준다. 더불어 train과

2022년 12월 28일
·
0개의 댓글
·