시리즈

paperread+

1.AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

논문 링크paper with codeThe Vision Transformer, or ViT, is a model for image classification that employs a Transformer-like architecture over patches of t

2022년 6월 22일