GPT, ALBERT, RoBERTa 간단 특징

Hyun·2022년 6월 27일

NLP

목록 보기

7/8

Auto regression
- 특징 : generation, transformer의 decoder부분. 자연어 생성에 강함
- GPT
- XLNet
Encoder
- 특징 : understanding에 강함
- BERT
- ALBERT
- RoBERTa
- Electra : bert에 task를 바꿔볼까?

GPT : Generative Pre-trained Transformer

Transformer decoder
Auto-regressive model : 스스로 반복적으로 생성해내는 모델
- left to right transformers
- BERT가 모든 토큰에 대해서 attention을 계산하는 것에 반해서(bi-directional), GPT는 Auto-Regressive인데 지금까지 앞에 나온 단어들을 기반으로 다음 단어를 예측하고, 그 예측 값을 다시 다음 단어를 구하기 위한 input에 넣는다.
GPT2
- GPT와 아키텍처는 유사
- vocab size up
- layer가 더 쌓임 => 파라미터의 수가 매우 많아짐
- embeddidng을 byte tokenization으로?
- BERT로 분류 문제를 풀고싶을 때 labeled된 data가 적어도 1000개, 10000개가 필요하다.
- GPT는 Meta Learning = 모델이 여러 task를 학습(특정 task x )하면서 학습하는 방법을 학습시키는 방식 ( learn to learn ) = 특정 task에 fine-tuning하지 않더라도 data 몇개만 가지더라도 모든 task를 다 풀 수 있지 않을까? ( Generation, QA, Machine Translation, Reading Comprehension, Summerization에 좋은 역량을 보임 )
- Few-shot Learning : meta learning을 푸는 방식 중 하나

"A Lite BERT for Self-supervised Learning of Language Representations"

"A Robustly Optimized BERT Pretraining Approach"

기존의 bert가 덜 학습되었다는 주장으로
학습시간, 배치사이즈, 학습데이터 10배, 데이터 길이를 높임
NSP task 제거 : 모델이 embedding을 학습하는데 큰 의미가 없다
Masking Pattern 변화
- 기존 : 문장 내 토큰 중 15% 중 80%는 mask, 10%는 그대로, 10%는 임의의 토큰으로 대체 => 미리 해놓고 들어감! => epoch가 될 때마다 (같은 문장 두세번째 훈련때마다 ) 문장의 패턴이 그대로 유지됨 => 문장의 다양성이 방해됨
- 그때그떄 변경?
NLU에 강점