- ACL 2020, Facebook AI
- Encoder-Decoder 구조로, pre-training 학습 방법에 대한 내용이고, BART 를 활용한 다양한 Fine-tuning task 를 소개하였음
- Sequence Classification, Token Classification, Sequence Generation (Text Summarization), Machine Translation
- BART 는 Discriminative Task 에 대해서는 RoBERTa 와 유사한 성능을 달성하였고, Generation Task 에 대해서는 (그 당시) SOTA 를 달성함.
Abstractive Summarization
Task 에 대하여 상당히 좋은 성능을 달성함.
Bidirectional Encoder + Left-to-right Autoregressive Decoder + Corrupted text
Text Infilling
Sentence Permutation
위 5가지 Corrupting method 에 대해 실험하였고, 이 중 Text Infilling 과 Sentence Permutation 에 의한 효과가 좋았음
Language Model
생성 Task
에서 강점이 있음을 보임최종 채택한 방법은,
1. Text Infilling + Sentence Permutation
2. Token 30% Mask + 모든 문장을 섞음
3. 데이터에 잘 fit 되게 하기 위해, 마지막 10% training step 에서는 dropout 적용하지 않음
4. 160GB 의 New, Books Stories, Web text
- RoBERTa 참고
CNNDM
, XSum
데이터셋은 Abstractive Summarization Task 를 대표하는 유명한 벤치마크 데이터셋임