지금까지 스터디한 모델들에 대해서 간단하게 정리, 비교를 해보고자 한다. 😎
1. Seq2Seq 모델의 한계
BERT를 비롯한, Transformer 기반 모델이 나오게 된 것은, 기존 seq2seq
모델의 한계점 때문이다.
seq2seq 모델은 long term dependency(장기 의존성)
문제와 parallelization
으로 인한 연산 속도 문제를 해결하지 못한다.
이를 극복하기 위한 self-attention
(bi-directional contextualized rerpresentation)이 등장한다.
2. Transformer(2017)의 등장
encoder-decoder 구조, positional encoding, multi-head attention, output masking을 사용하여 의존성 문제, 연산 문제를 크게 극복한다.
3. BERT(2018)의 등장
Transformer 기반 encoding과 pretrain+finetuning 으로 NLP task의 성능을 크게 향상시킨다.
4. BERT 개선 방식
이러한 BERT 모델을 개선하기 위해 많은 연구가 진행되었는데, BERT 개선 방식에는 크게 3가지로 나뉜다.
BERT(2018), RoBERTa(2019), XLNet(2019), ELECTRA(2020), DeBERTa(2020) 순으로 비교한다.
모델명 | BERT(2018) | RoBERTa(2019) | XLNet(2019) | ELECTRA(2020) | DeBERTa(2020) |
---|---|---|---|---|---|
사전학습 objectives | Masked LM(MLM) + NSP | dynamic MLM, no NSP | autoregressive(AR), permutation LM | Generator(MLM) + Discriminator(replaced token detection) | Masked LM(MLM), No NSP |
사전학습 데이터 | BookCorpus + Wikipedia (16GB) | BERT dataset + CC-News + OpenWebText + Stories (160GB) | BERT dataset + Giga5 + ClueWeb 2012-B + Common Crawl(110GB) | BERT와 동일(Large model은 XLNet과 동일) | Wikipedia + BookCorpus + OPENWEBTEXT + STORIES(78GB) |
핵심 포인트 | 양방향 문맥 학습을 위한 2가지 사전학습 태스크(MLM, NSP) 제시 | (1) 다운스트림 태스크 성능 향상을 위한 BERT의 design choice를 새로 제시 (2) No NSP, 동적 마스킹 방법 제시 | (1) 기존 AR,AE 모델링의 한계를 극복하는 generalized AR 방법론 제시(AR+양방향 문맥) | (1) BERT MLM 방식의 비효율성 극복, 효율적 사전학습 연산 모델 제시 (2) BERT의 사전학습-파인튜닝 간 차이 극복 (3) GAN-like 구조 제안(Generator, Discriminator) | (1) disentangled attention (2) enhanced mask decoder (3) virtual advarsarial training |