시리즈

논문읽기

1.VIT : An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

* OVERVIEW* 논문 출간 날짜 - 21.06 Transformer를 사용한 Image Classification Model NLP분야에서 대성한 Transformer 구조를 Computer Vision분야에 적용

2025년 5월 7일

OVERVIEW 논문 출간 날짜 - 21.12 VIT 구조를 이용한 Video Classification 모델 입력 영상을 Tublet(작은튜브)로 쪼갠 후, token으로 변환하여 Transformer에 입력하는 방식 Factorise(분해)라는 개념을 사용한 모델

2025년 7월 12일

Background 사전 학습 (Pre-training) : 모델을 일반적인 대규모 데이터로 미리 학습시키는 것, 레이블 없는 자가 지도 학습이 가능하다. / 데이터의 이해도를 높일 수 있다. / 레이블이 적은 데이터의 과적합을 막을 수 있다. 전이 학습(Trans

2025년 7월 12일