Transformer 기반 최신 NLP 모델 비교

choonsikmom·2022년 5월 27일
0

논문 리딩

목록 보기
7/21
post-thumbnail

지금까지 스터디한 모델들에 대해서 간단하게 정리, 비교를 해보고자 한다. 😎

History


1. Seq2Seq 모델의 한계

BERT를 비롯한, Transformer 기반 모델이 나오게 된 것은, 기존 seq2seq 모델의 한계점 때문이다.
seq2seq 모델은 long term dependency(장기 의존성)문제와 parallelization 으로 인한 연산 속도 문제를 해결하지 못한다.

이를 극복하기 위한 self-attention(bi-directional contextualized rerpresentation)이 등장한다.

2. Transformer(2017)의 등장
encoder-decoder 구조, positional encoding, multi-head attention, output masking을 사용하여 의존성 문제, 연산 문제를 크게 극복한다.

3. BERT(2018)의 등장
Transformer 기반 encoding과 pretrain+finetuning 으로 NLP task의 성능을 크게 향상시킨다.

4. BERT 개선 방식
이러한 BERT 모델을 개선하기 위해 많은 연구가 진행되었는데, BERT 개선 방식에는 크게 3가지로 나뉜다.

  • Pretraining method 개선
  • AE(autoencoding) vs AR(autoregressive)
    ✅ AE(autoencoding)
    - 전체 단어를 모두 보고 예측(bi-directional)
    - 텍스트 생성(text generation) 성능 저조
    - mask independence assumption
    - 사전학습 / 파인튜닝 간 차이(discrepancy)
    ✅ AR(autoregressive)
    - 이전 단어만 보고 예측(단방향)
    ✅ model efficiency 개선

Comparing Models


BERT(2018), RoBERTa(2019), XLNet(2019), ELECTRA(2020), DeBERTa(2020) 순으로 비교한다.

모델명BERT(2018)RoBERTa(2019)XLNet(2019)ELECTRA(2020)DeBERTa(2020)
사전학습 objectivesMasked LM(MLM) + NSPdynamic MLM, no NSPautoregressive(AR), permutation LMGenerator(MLM) + Discriminator(replaced token detection)Masked LM(MLM), No NSP
사전학습 데이터BookCorpus + Wikipedia (16GB)BERT dataset + CC-News + OpenWebText + Stories (160GB)BERT dataset + Giga5 + ClueWeb 2012-B + Common Crawl(110GB)BERT와 동일(Large model은 XLNet과 동일)Wikipedia + BookCorpus + OPENWEBTEXT + STORIES(78GB)
핵심 포인트양방향 문맥 학습을 위한 2가지 사전학습 태스크(MLM, NSP) 제시(1) 다운스트림 태스크 성능 향상을 위한 BERT의 design choice를 새로 제시 (2) No NSP, 동적 마스킹 방법 제시(1) 기존 AR,AE 모델링의 한계를 극복하는 generalized AR 방법론 제시(AR+양방향 문맥)(1) BERT MLM 방식의 비효율성 극복, 효율적 사전학습 연산 모델 제시 (2) BERT의 사전학습-파인튜닝 간 차이 극복 (3) GAN-like 구조 제안(Generator, Discriminator)(1) disentangled attention (2) enhanced mask decoder (3) virtual advarsarial training
profile
춘식이랑 함께하는 개발일지.. 그런데 이제 먼작귀를 곁들인

0개의 댓글