BART
BART는 기본적인 Seq2Seq Transformer 구조를 채택하였습니다. 이때 ReLU 활성화 함수 대신 GeLUs를 사용였다.
Base Model은 인코더와 디코더가 6개의 레이어로 구성되었고, large model의 경우 12개의 레이어로 구성되었다.
기존의 사전학습 방식/
- Token Masking : BERT의 사전학습 방식으로 문장의 특정 토큰을 MASK 원소로 대체하여 해당 자리에 들어갈 단어를 예측하는 학습 방식이다.
- Token Deletion : 토큰을 임의로 삭제하여 어느 위치의 토큰이 사라졌는지를 학습한다.
- Text Infilling : 포아송 분포를 따르는 SPAN 값을 토대로 마스킹을 씌워준다.
- 맞침표 기준으로 문장을 나누고 섞은 후 모델이 이 순서를 맞출 수 있게 학습한다.
- Document Rotation : 문서의 시작점을 알수 있게 하는방식.
BART의 학습 방법
사전학습
- BART의 사전학습은 Bidircetional Encoder와 Autoregressive Decoder로 이루어져 있다.
- Bidirectional Encoder에서 Token masking, Token Deletion, Text Infilling, Sentence Permutation, Document Rotation 등 방식으로 문장을 손상을 시킨 문장을 Decoder에 넣고 해당 문장에 대해서 autoregressive decoding이 진행 된다.
- KoBART의 경우에는 Corrupt방식을 Text Infilling으로만 사용했다.
LOSS
- 출력문장과 원본 문장의 Cross Entropy 를 구한다.
참고
논문리뷰 BART
BART논문리뷰