- Paper: https://proceedings.mlr.press/v119/zhang20ae/zhang20ae.pdf
- arXiv: https://arxiv.org/pdf/1912.08777.pdf
- arXiv 에 Appendix 내용이 많이 있음
- Code: https://github.com/google-research/pegasus
- Google Blog: https://ai.googleblog.com/2020/06/pegasus-state-of-art-model-for.html
MASS (Microsoft, 2019)
UniLM (Microsoft, 2019)
T5 (Google, 2019)
BART (Meta, 2019)
PEGASUS 는 input 문장 전체를 reconstruct 한다는 측면에서 기존 모델들과는 차별점이 있음
GSG
)MLM
GSG
의 경우, 문맥 상 중요한 문장을 선택하는 것이 랜덤하게 하나 고른 것보다 성능이 좋음
- 학습 방식
- Step 1: documents 에서 마스킹 할 문장들을 뽑고
- Step 2: 뽑은 문장들을 concatenate 하여 pseudo-summary 를 만들고
- Step 3: Gap Sentence 에 대응하는 포지션에 [MASK1] 토큰으로 대체
- 최종적으로 Ind-Orig 방식과 (왼쪽 파랑색 차트) 30% 의 GSR 을 선택함 (오른쪽 초록색 차트)
- Ind: ROUGE1-F1 스코어 계산 시 문장 간 독립적으로 계산
- Orig: original implementation 방식으로, 스코어 계산 시 n-grams 을 2번 카운팅함 (반대 개념이 Uniq 로, 2번 카운팅 하지 않기 위해 set 으로 간주함)
SentencePiece Unigram
사용하고, 96k 크기의 vocab size
를 선택SOTA
달성함