인코더-디코더 ? 트랜스포머로 잘 알려져 있다.
Transformer
GPT
BERT
GPT-2
RoBERTa
GPT-3
--Encoder 모델의 부흥(NLU의 급속한 발전)--
ChatGPT
GPT-4/GPT-4o
--생성형 AI의 시대--
인코더에서는 정보를 해석하고, 디코더에서는 그 기반으로 생성한다.
Bidirectional Encdoer와 Autoregressive Decoder 부분으로 나뉘는데, 전자만 쓰게되면 BERT 계열이 되고, 후자만 쓰게되면 GPT 계열이 되는 것.
모두 쓰게 되면 Transformer !
다만, Encoder-Decoder의 경우에 다음의 문제로 한계를 마주하게 됨.
BERT: 바이디렉셔널 인코더 모델
이 모델은 애당초 태어나기를 마스크 토큰 예측하면서 학습됨.'
그리고 자기 스스로 라벨을 만들고 그 라벨을 예측하도록 학습을 진행했는데
이때 이걸 바로 Self-Supervised-Learning 이라고 하는 것.
문서 분류, 스팸 필터링
정보 검색(임베딩)
Extradctive QA
다만 Encoder-only모델의 경우에 Auto-Regressive한 Task 즉, Sequential 한 Task에 대해 한계를 보였음.
왜냐하면 학습을 MLM으로 수행했기 때문!

작은 모델에서는 나타나지 않는데, 특정 수준 크기의 모델에서부터는 학습이 매우 크게 증진됨.
LLM과 Decoder-only 모델은 다른게 아니다
다만, LLM이라고하면 그 크기가 매울 클 것.
같다.
예시를 넣어서 보여주는 것이다.
다만 단순히 예제 몇개를 보여준다고 풀 수 없는 Task가 있기 때문에
아래와 같은 CoT(Chain-of-Thought)를 사용한다.

출처: https://arxiv.org/abs/2201.11903
Human Alignmnet
Instruction Tuning

출처 : https://arxiv.org/pdf/2109.01652
RLHF
형식을 잘 따라가도 좀 더 좋은 내실을 갖추도록 할 수 있는데 그게 바로 RLHF

출처: https://arxiv.org/pdf/2305.18290