Extractive Summarization task를 Semantic text matching task로 접근
💊 Document와 Gold Summary, Candidate Summary를 Semantic space에 투영하였을 때, Document와 Gold Summary 간의 거리만큼 가까운 Candidate을 찾고자 함.
loss function을 summary-level로 디자인
(margin-based triplet loss )
: 전체 candidate summary 와 document 간 consine simarity, gold summary 와 간 cosine similarity 비교
(pairwise margin loss)
: 각 candidate summary와 gold summary의 ROUGE score를 측정하여 정렬한 후,
번째 순위의 candidate summary 와 번째 순위의 에 대해 candidate pair간 loss 측정
gold summary에 따른 ranking gap ()이 크고, 와 의 document similarity의 차가 클수록 loss 값이 증가한다.
❗ 각 candidate summary는 데이터셋에 따라 2-3문장으로 이루어져 있다. (not sentence level)
Zhong et al.의 실험에서는 BERT-Ext 모델을 통해 Document로부터 5개의 문장 (ROUGE score 상위 5문장)을 추출한 후, 이 5개의 문장으로부터 총 20개의 candidate summary set을 생성하였다 (학습 파라미터인
candidate_num
을 통해 변경 가능).
데이터셋마다 gap의 크기에 차이가 있음
→ gap이 클수록, Summary-level method가 필수적이며, 작으면 Sentence-level의 method로도 충분함
📢 gap : summary-level과 sentence-level method를 각각 적용했을 때 ROUGE score의 차이
논문에서는 6개의 데이터 셋을 사용하여 각 데이터셋이 가지는 gap을 측정하였다.
Short Summary length를 가지는 Reddit, XSum와 Long length를 가지는 PubMed, Multi-News는 작은 gap을 가졌다.
Medium length의 CNN/DM이 가장 큰 gap을 가지고, 그 다음으로 Long length의 WikiHow의 gap이 큰 것을 확인하였다.
또한, 각 데이터셋의 Best Summary의 sentence-level scoring에 따른 순위 분포를 제공했다.
PubMed는 Best Summary가 sentence-level scoring에 따른 순위 상위권에 밀집해 있으며,
이는 sentence-level로도 충분히 성능을 보일 수 있음을 의미한다.
반면에, WikiHow와 Multi-News는 Best Summary 분포를 보았을 때, sentence-level extraction으로는 Best Summary를 추출하기 어렵다는 것을 알 수 있다.
이로 인한 실험 결과, 각 데이터셋에 MatchSum에 따른 성능 개선 정도를 분석하였다.
PubMed와 Multi-News의 성능 개선 정도가 0.2 이하인 것을 보아, 길이가 긴 Summary에 대해서는 MatchSum이 성능이 크게 향상시키지 않음을 알 수 있다.
이 중에서도 Multi-News가 PubMed 보다는 성능향상 정도가 높은데, 이는 Best Summary의 분포에 따른 것으로 볼 수 있다.
PubMed는 Sentence-level extraction으로도 성능이 좋게 나오기 때문에, MatchSum을 통해 개선될 여지가 적다.
Summary-level summarization은 dataset에 따라 성능 향상률에 차이가 있다.
하지만, 몇가지 실험에서는 결과를 설명할 수 없는 결과가 나타났고 🤔, 이에 대해선 추가적인 연구가 필요한 상황이다.