(simple) [GPT-1] [GPT-2] [GPT-3]

Hyungseop Lee·2024년 4월 20일
0
post-thumbnail

GPT-1

GPT-2

GPT-3

  • Language Models are Few-Shot Learners

  • GPT-3는 few-shot learning을 통해 기존 LLM이 갖고 있던 finetuning의 한계점을 극복함

  • Few-shot learning이란?
    (그림 출처 : https://www.youtube.com/watch?v=p24JUVgDkQk&t=706s)

    • zero-shot :
      젖소의 얼룩과 말이 합쳐진 말이 얼룩말이라는 것을 알고 있을 때,
      얼룩말을 한 번도 보지 못했어도, 얼룩말을 처음 봤을 때 예측할 수 있음
    • one-shot :
      원숭이를 한 번 봤으면, 또 다른 원숭이를 보고 원숭이라는 것을 알 수 있음
    • few-shot :
      fine-tuning이 필요 없을 정도로,
      "강아지 사진을 매우 많이 보여줘서, 강아지를 잘 예측할 수 있도록 하자"
  • 사용한 data와 parameter를 매우 크게 늘려서 few-shot learning을 진행.
    그래서 model은 fine-tuning 없이도 이미 특정 task에도 사용할 수 있도록 똑똑한 model이 됨.

profile
Efficient Deep Learning

0개의 댓글

관련 채용 정보