2018년 ~ : BERT 등 transfer learning을 적용하는 pretrained 모델
2019년 ~ : GPT-3 등 generation에 포커싱한 모델이 큰 축을 이루게 됨
BERT 이후 봐야할 언어 생성 모델들
1. GPT-2 (OpenAI)
: 많은 언어를 학습시키니 생성이 잘되는구나
2. T5 (Google)
: 우리도 생성 모델 해보자
3. BART (Facebook)
: bert+gpt
4. GPT-3 (OpenAI)
: 모델은 GPT 그대로지만 엄청나게 많은 언어를 학습 => few-shot learning 적용
오늘의 핵심 : GPT-3 간단 요약
==> 문맥 파악 + 문장 생성
Token Masking, Sentence Permutation, Document Rotation, Token Deletion, Text Infilling 등을 사용하여 입력 문장을 처리.
- Crawling 데이터를 사용 (품질이 낮아서 처리해서 넣음)
- 군데군데 마스크해서 학습시킨 건 똑같은데, 연관된 문장이 있으면 연결해서 결과를 도출할 수 있음.
- masked 단어를 찾아내서 채워넣는 기능이라 온전한 generation이라고 하기 어려움.
1. Auto-regressive
Bert - 자기 인코딩 언어 모델
GPT-2 - 자기 회귀 언어 모델 => RNN 활용
2. Masked Self-Attention
: 예측하고자 하는 뒷 부분은 mask해놓고 그 앞 부분만 학습시켜서 뒤에 올 단어 예측
BERT - Self-Attention
: 앞뒤 문맥을 다 보고 attention을 구함
GPT-2 - Masked Self-Attention
BERT는
- 자기 회귀 능력 X
- 문맥 고려, 다음 단어 예측 떨어짐 (양방향)
GPT-1: 우리도 Transfer Learning 해봤다.
GPT-2: 많이 학습시키니 fluent하게 언어를 생성하더라.
GPT-3: 엄청 엄청 많이 학습시켰더니 few-shot learning이 가능하더라. meta-learning 가보자고
엄청나게 많은 파라미터를 학습한 대규모 모델을 통해 사용
이미지, 텍스트에는 적용되고 있지만 정형 데이터에는 적용되지 않고 있음
번역 등 언어 생성뿐만 아니라 코드, 이미지 등도 출력 가능
=> meta-learning을 실현하니까 그 한계점도 가지겠음.
인공지능의 다음 단계로, 범용 인공지능.
Task를 분리하지 않는 모델
유사도를 학습하는 metric 기반의 학습. 거대한 언어 모델
세상의 모든 지식을 동일한 방식으로 표현
모든 분야(Task)들이 모두 연결되어 있
결론: 범용 인공지능(AGI)는 일반화된 거대한 지식으로 구현한다는 것