GPT1은 transformer의 decode 부분의 Masked multi-head self-attention만을 사용함.
GPT2는 GPT1의 finetuning을 통째로 없앰.
(그림 출처 : https://www.youtube.com/watch?v=3n6157XNYyw&t=108s)
그래서 model이 학습하는 방식이 다름.
GPT2는 입력된 값과 수행해야 할 task를 함께 입력받아서 출력하게 되어 있음.
위 논문의 설명을 그림으로 쉽게 설명하면,
((그림 출처 : https://www.youtube.com/watch?v=3n6157XNYyw&t=108s))
GPT-3는 few-shot learning을 통해 기존 LLM이 갖고 있던 finetuning의 한계점을 극복함
Few-shot learning이란?
(그림 출처 : https://www.youtube.com/watch?v=p24JUVgDkQk&t=706s)
zero-shot
:one-shot
:few-shot
:사용한 data와 parameter를 매우 크게 늘려서 few-shot learning을 진행.
그래서 model은 fine-tuning 없이도 이미 특정 task에도 사용할 수 있도록 똑똑한 model이 됨.