https://aclanthology.org/2020.emnlp-main.748.pdf
수천 단어를 초과하는 긴 문서에 대해 neural abstractive summarization을 수행할 수 있는 방법
요약을 생성하기 전에 먼저 간단한 extractive 단계를 수행하고, 그 결과를 사용하여 Transformer Language Model이 요약을 생성하기 전에 관련 정보에 조건화되도록 함
Copy mechanism을 사용하는 기존 연구보다 더 높은 ROUGE 점수 달성
Strong baseline / 기존 SOTA / Transformer 기반 접근 / Extractive 기반 / 하이브리드 모델 등을 비교함
사용한 데이터셋 : arXiv papers / PubMed papers / Newsroom / BigPatent datasets
Transformer 기반 모델이 n-gram 복사가 적어서 사람의 요약과 가장 비슷함
Human evaluation
Extractive summarization : 입력 문서에서 일부 단어, 구, 문장을 선택하여 요약을 구성
😊 핵심 정보 보존
🙁 여러 문장을 단순히 이어 붙이는 것 → 흐름이 다소 어색할 수 있음
Abstractive summarization : 원문에 포함된 핵심 아이디어를 자연어로 재구성(paraphrase)하여 새로운 문장을 만들어내는 것
😊 자연스러운 문장 생성
🙁 원문의 사실성을 유지해야 함 (faithful)
웹 문서에 종종 포함되는 요약 덕분에 Transformer Language Model (TLM)은 비의도적으로 요약 기능을 학습할 수 있지만, 이러한 비의도적 학습은 문서의 내용을 충분히 반영할 수 없음
본 연구에서는 Transformer 모델을 의도적이고 집중적으로 요약 작업에 최적화하는 방법을 탐구
하이브리드 접근법의 필요성
Extractive 단계로 문맥을 축소한 뒤, 그 결과를 abstractive 단계의 입력으로 사용
TLM의 입력 재구성
문서 재정렬
표준화된 구분자 삽입
- Introduction
- Extracted Sentences
- Abstract or Summary
- Rest of the Article
→ TLM이 요약에 필요한 핵심 정보에 집중할 수 있도록 함
Contribution
Extractive + Abstractive Hybrid 모델을 포함한 다양한 구조의 대규모 실험을 수행
강력한 baseline 및 기존 SOTA 모델과의 정량적 비교
ROUGE 점수, n-gram 복사율 분석, human evaluation을 통한 종합 평가 수행
→ 하이브리드 접근법 성능 좋았음
기존 연구는 대체로 extractive 또는 copy mechanism을 사용하는 하이브리드 모델에 머물러 있었으나,
본 논문은 Transformer Language Model을 이용해
긴 문서 요약 문제를 해결하는 새로운 방향을 제시
두 가지 extractive 방법 사용:
(a) Sentence Pointer Network
(b) Sentence Classifier
데이터셋(도메인/테스크)에 따라 좋은 방법이 다름
Extractive 단계는 단순히 문장을 고르는 역할이 아니라, Transformer가 “어떤 문맥을 보고 요약을 생성해야 할지”를 효과적으로 제한하는 hard attention 역할을 수행
Hierarchical Seq2seq Sentence Pointer
Encoder: hierarchical bidirectional LSTM
Decoder: autoregressive pointer LSTM
문서 의 문장 N개, 타깃 요약 의 문장 M개를 가지고
ROUGE - 1/2/L 스코어의 평균값을 구함 (NxM개)
의 각 요약문()마다의 ground-truth: 문서 의 문장들 중 스코어 가장 높은 2개 순서대로 정렬(2M개)
선택된 2M개의 문장을 TLM의 context로 투입함
→ 더 구조화되고 풍부한 extractive summarization이 가능해짐
Sentence Classifier
: 문장마다 요약에 포함될 확률을 예측하는 분류기(classifier)
➡️ Extractive model에서는 pointer와 classifier를 통해 “문서에서 핵심 문장을 추출”함
이를 통해 transformer(TLM)에 필요한 요약 전의 context를 제공
논문(기사)의 Introduction
Extractive 모델이 선택한 중요 문장들 (Extracted Sentences)
Abstract or Summary
나머지 본문 (Rest of the Article)
→ 구분자 토큰으로 위와 같이 나누어 TLM이 학습하도록 함
→ 모델은 이 순서를 학습하면서 요약(abstract)이 이전 문맥으로부터 자연스럽게 이어지는 구조를 배움
실제 학습 시 Ground-truth extracted sentences를 사용해 학습함
입력: Introduction + Extracted Sentences
출력: Abstract
모델이 직접 선택한 extracted sentences를 사용
Start of the Summary 토큰 삽입해 요약 생성 시작
Rest of the Article은 도메인 내 추가 학습 데이터로 활용
Top-k sampling (k=30), softmax temperature=0.7
➡️ Transformer LM (Abstractive)에서는 Extracted sentences + 일부 본문을 입력받아 요약 생성
ROUGE-1, ROUGE-2, ROUGE-L의 full-length F1 score
💡ROUGE는 단어 중복률 기반 지표이므로 Extractive 모델에 유리함
Abstractive 모델의 유창성(fluency)이나 가독성(readability)을 충분히 반영하지 못함
→ 본 연구에서는 Human Evaluation도 함께 수행
Extractive: Lead-10, LexRank, SumBasic
Abstractive: Seq2Seq
Hybrid (Mixed): Pointer-Generator, Discourse-Aware, Bottom-Up
Oracle (이론적 upper bound): Gold Ext, TLM+E(G,G)
Ours:
- Sent-CLF (Extractive) 👍 PubMed
- Sent-PTR (Extractive) 👍 arXiv
- TLM (Abstractive)
- TLM+E(G,M) (Hybrid) 👍 bigPatent, Newsroom
➡️ Transformer LM이 Extracted Sentences로 조건화될 때 단순 Transformer보다 훨씬 좋은 요약 품질을 달성, Copy 없이도 SOTA 수준 성능 달성
| 평가 항목 | 의미 |
|---|---|
| COH (Coherence) | 요약이 전체적으로 자연스럽고 논리적인가? |
| FLU (Fluency) | 문법적이고 읽기 쉬운가? |
| INF (Informativeness) | 기사에서 핵심 정보를 잘 담았는가? |
| REL (Relevance) | 요약 내용이 기사 내용과 일치하는가? |