DeiT 모델을 이해하기 위해 세 개의 논문을 순차적으로 리뷰하도록 하겠습니다. Distilling the Knowledge in a Neural Network(2015) 이 논문에서 DeiT의 훈련 전략의 기초가 되는 distillation에 대해 이해하겠습니다.
이번 글에서는 Distilling the Knowledge in a Neural Network(2015)을 리뷰하겠습니다. 본 논문에서는 teacher 모델의 지식을 student 모델에게 전달하는 방법을 제시합니다. 이 방법을 통해 학습한 student 모델이 te
이번 글에서는 AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE(2021)을 리뷰하겠습니다. 본 논문에서는 Vision Transformer 모델을 소개합니다.
이번 글에서는 Training data-efficient image transformers & distillation through attention(2021)을 리뷰하겠습니다. DeiT 관련 논문 리뷰의 마지막 글이며, DeiT를 소개합니다.DeiT의 특징은 크게 두
Open and Efficient Foundation Language Models
이전 글에 이어서 Instruction Tuning 관련 논문을 리뷰하겠습니다. 오늘 리뷰할 논문은 Instruction Tuning에 CoT prompting을 추가하여 모델의 resoning ability를 증진할 수 있는지 실험한 논문입니다. Scaling In