[ ViT ] paper, code review

d4r6j·2024년 2월 20일
0

vision-paper

목록 보기
1/11
post-thumbnail

link : https://github.com/lucidrains/vit-pytorch/blob/main/images/vit.gif

overview of the ViT

patch embedding

linear projection

conv2d instead of linear

conv2d layer structure

cls[class] token, position embedding

patch embedding code

connect transformer encoder

참고로 Encoder stack 은
(Link) The Annotated Transformer 를 참고 하였으며,
(Post) Transformer paper, code review 를 토대로 stack 사용.

feed-forward network

GELU (Gaussian Error Linear Unit)

classification head

ViT structure complete

Ref

0개의 댓글

관련 채용 정보