[BART] 모델

티나(Tina)·2022년 12월 31일
0

파이널

목록 보기
4/7

BART

BART는 기본적인 Seq2Seq Transformer 구조를 채택하였습니다. 이때 ReLU 활성화 함수 대신 GeLUs를 사용였다.
Base Model은 인코더와 디코더가 6개의 레이어로 구성되었고, large model의 경우 12개의 레이어로 구성되었다.

기존의 사전학습 방식/

  • Token Masking : BERT의 사전학습 방식으로 문장의 특정 토큰을 MASK 원소로 대체하여 해당 자리에 들어갈 단어를 예측하는 학습 방식이다.
  • Token Deletion : 토큰을 임의로 삭제하여 어느 위치의 토큰이 사라졌는지를 학습한다.
  • Text Infilling : 포아송 분포를 따르는 SPAN 값을 토대로 마스킹을 씌워준다.
  • 맞침표 기준으로 문장을 나누고 섞은 후 모델이 이 순서를 맞출 수 있게 학습한다.
  • Document Rotation : 문서의 시작점을 알수 있게 하는방식.

BART의 학습 방법

사전학습

  • BART의 사전학습은 Bidircetional Encoder와 Autoregressive Decoder로 이루어져 있다.
  • Bidirectional Encoder에서 Token masking, Token Deletion, Text Infilling, Sentence Permutation, Document Rotation 등 방식으로 문장을 손상을 시킨 문장을 Decoder에 넣고 해당 문장에 대해서 autoregressive decoding이 진행 된다.
  • KoBART의 경우에는 Corrupt방식을 Text Infilling으로만 사용했다.

LOSS

  • 출력문장과 원본 문장의 Cross Entropy 를 구한다.

참고
논문리뷰 BART
BART논문리뷰

profile
열심히 사는 중

0개의 댓글