[NLP] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

suzu·2025년 11월 10일

Hybrid Summarization Long Document Summarization NLP TLM

Paper Review

목록 보기

11/13

https://aclanthology.org/2020.emnlp-main.748.pdf

Abstract

수천 단어를 초과하는 긴 문서에 대해 neural abstractive summarization을 수행할 수 있는 방법
요약을 생성하기 전에 먼저 간단한 extractive 단계를 수행하고, 그 결과를 사용하여 Transformer Language Model이 요약을 생성하기 전에 관련 정보에 조건화되도록 함
Copy mechanism을 사용하는 기존 연구보다 더 높은 ROUGE 점수 달성
Strong baseline / 기존 SOTA / Transformer 기반 접근 / Extractive 기반 / 하이브리드 모델 등을 비교함
사용한 데이터셋 : arXiv papers / PubMed papers / Newsroom / BigPatent datasets
Transformer 기반 모델이 n-gram 복사가 적어서 사람의 요약과 가장 비슷함
Human evaluation
- Transformer 기반: 일관성, 유창성 good
- Extractive only: 정보성, 관련성 good

1. Introduction

Automatic Text Summarization : 문서의 핵심 정보와 의미를 유지하면서 내용을 압축하는 과정
- Extractive summarization : 입력 문서에서 일부 단어, 구, 문장을 선택하여 요약을 구성
  
  😊 핵심 정보 보존
  
  🙁 여러 문장을 단순히 이어 붙이는 것 → 흐름이 다소 어색할 수 있음
- Abstractive summarization : 원문에 포함된 핵심 아이디어를 자연어로 재구성(paraphrase)하여 새로운 문장을 만들어내는 것
  
  😊 자연스러운 문장 생성
  
  🙁 원문의 사실성을 유지해야 함 (faithful)

웹 문서에 종종 포함되는 요약 덕분에 Transformer Language Model (TLM)은 비의도적으로 요약 기능을 학습할 수 있지만, 이러한 비의도적 학습은 문서의 내용을 충분히 반영할 수 없음
본 연구에서는 Transformer 모델을 의도적이고 집중적으로 요약 작업에 최적화하는 방법을 탐구
- 입력 텍스트의 구절을 단순히 순서대로 배열하고, task definition과 트레이닝 절차를 올바르게 구성함으로써 달성 가능한 성과를 탐구
- 이 접근법을 simple but high quality extractive techniques와 결합할 때의 성능 향상도 탐구
하이브리드 접근법의 필요성
- Pure LM은 긴 문서에서 메모리 한계로 인해 학습 및 추론이 어려움
- 긴 문서의 많은 문장들이 요약에 필요하지 않음
Extractive 단계로 문맥을 축소한 뒤, 그 결과를 abstractive 단계의 입력으로 사용
TLM의 입력 재구성
- 문서 재정렬
- 표준화된 구분자 삽입
  - Introduction
  - Extracted Sentences
  - Abstract or Summary
  - Rest of the Article
  
  → TLM이 요약에 필요한 핵심 정보에 집중할 수 있도록 함
Contribution
- Extractive + Abstractive Hybrid 모델을 포함한 다양한 구조의 대규모 실험을 수행
- 강력한 baseline 및 기존 SOTA 모델과의 정량적 비교
- ROUGE 점수, n-gram 복사율 분석, human evaluation을 통한 종합 평가 수행
  
  → 하이브리드 접근법 성능 좋았음

기존 연구는 대체로 extractive 또는 copy mechanism을 사용하는 하이브리드 모델에 머물러 있었으나,

본 논문은 Transformer Language Model을 이용해

Copy 없이도 더 높은 수준의 abstractive summarization을 달성하고,
Extractive 단계의 정보로 Transformer를 효과적으로 conditioning함으로써

긴 문서 요약 문제를 해결하는 새로운 방향을 제시

3. Framework

Extractive Models

두 가지 extractive 방법 사용:

(a) Sentence Pointer Network

(b) Sentence Classifier
데이터셋(도메인/테스크)에 따라 좋은 방법이 다름
Extractive 단계는 단순히 문장을 고르는 역할이 아니라, Transformer가 “어떤 문맥을 보고 요약을 생성해야 할지”를 효과적으로 제한하는 hard attention 역할을 수행
Hierarchical Seq2seq Sentence Pointer
- Encoder: hierarchical bidirectional LSTM
  - Sentence-encoder (word-level ; token-level) LSTM: 문장 표현 생성
  - Document-encoder (sentence-level) LSTM: 문서 표현 생성
- Decoder: autoregressive pointer LSTM
  - Pointer Network처럼 동작. 문서 내에서 다음에 선택할 문장을 하나씩 지목(point)함
  - Dot product attention mechanism 사용
- 문서 $D$ 의 문장 $S$ N개, 타깃 요약 $T$ 의 문장 $S’$ M개를 가지고
- ROUGE - 1/2/L 스코어의 평균값을 구함 (NxM개)
- $T$ 의 각 요약문( $S’$ )마다의 ground-truth: 문서 $D$ 의 문장들 중 스코어 가장 높은 2개 순서대로 정렬(2M개)
- 선택된 2M개의 문장을 TLM의 context로 투입함
  → 더 구조화되고 풍부한 extractive summarization이 가능해짐
Sentence Classifier

: 문장마다 요약에 포함될 확률을 예측하는 분류기(classifier)
- 문서를 hierarchical LSTM으로 인코딩
- 각 문장의 representation과 전체 문서의 평균 representation을 결합
- Sigmoid를 씌워 확률 계산
- BCE (binary cross-entropy) loss 이용해 학습
  → 각 문장이 요약에 포함되는지 여부를 맞히는 이진 분류 문제

➡️ Extractive model에서는 pointer와 classifier를 통해 “문서에서 핵심 문장을 추출”함

이를 통해 transformer(TLM)에 필요한 요약 전의 context를 제공

Transformer Language Models (TLM)

Abstractive summarization을 Seq2Seq **구조 대신 단일 Transformer LM**으로 수행 i.e. Encoder-Decoder ❌, 하나의 autoregressive LM이 모든 요약 과정을 담당
GPT-2와 동일한 구조
학습 데이터:
- 논문(기사)의 Introduction
- Extractive 모델이 선택한 중요 문장들 (Extracted Sentences)
- Abstract or Summary
- 나머지 본문 (Rest of the Article)
  
  → 구분자 토큰으로 위와 같이 나누어 TLM이 학습하도록 함
  
  → 모델은 이 순서를 학습하면서 요약(abstract)이 이전 문맥으로부터 자연스럽게 이어지는 구조를 배움
- 실제 학습 시 Ground-truth extracted sentences를 사용해 학습함
추론 (inference)
- 입력: Introduction + Extracted Sentences
- 출력: Abstract
- 모델이 직접 선택한 extracted sentences를 사용
- Start of the Summary 토큰 삽입해 요약 생성 시작
- Rest of the Article은 도메인 내 추가 학습 데이터로 활용
- Top-k sampling (k=30), softmax temperature=0.7
데이터셋 및 전처리
- 사용한 데이터셋: arXiv, PubMed, BigPatent, Newsroom
- Subword 분리: Byte Pair Encoding (BPE), 40,000 merge operations
- Pointer Network의 메모리 한계로, 문서는 최대 300문장, 각 문장은 35토큰으로 제한

➡️ Transformer LM (Abstractive)에서는 Extracted sentences + 일부 본문을 입력받아 요약 생성

4. Results and Analysis

Evaluation
- ROUGE-1, ROUGE-2, ROUGE-L의 full-length F1 score
  💡
  ROUGE는 단어 중복률 기반 지표이므로 Extractive 모델에 유리함
  Abstractive 모델의 유창성(fluency)이나 가독성(readability)을 충분히 반영하지 못함
  
  → 본 연구에서는 Human Evaluation도 함께 수행
Comparison
- Extractive: Lead-10, LexRank, SumBasic
- Abstractive: Seq2Seq
- Hybrid (Mixed): Pointer-Generator, Discourse-Aware, Bottom-Up
- Oracle (이론적 upper bound): Gold Ext, TLM+E(G,G)
- Ours:
  - Sent-CLF (Extractive) 👍 PubMed
  - Sent-PTR (Extractive) 👍 arXiv
  - TLM (Abstractive)
  - TLM+E(G,M) (Hybrid) 👍 bigPatent, Newsroom
  
  ➡️ Transformer LM이 Extracted Sentences로 조건화될 때 단순 Transformer보다 훨씬 좋은 요약 품질을 달성, Copy 없이도 SOTA 수준 성능 달성
Abstractiveness of generated abstracts
- Transformer LM은 인간 요약문과 비슷한 수준의 낮은 n-gram 중복률을 보였다.
- Pointer-Generator 모델은 10% 이상의 20-gram 복사율을 보였으며, 이는 원문을 거의 그대로 가져오는 경향이 있음을 의미한다.

Human Evaluation

평가 항목	의미
COH (Coherence)	요약이 전체적으로 자연스럽고 논리적인가?
FLU (Fluency)	문법적이고 읽기 쉬운가?
INF (Informativeness)	기사에서 핵심 정보를 잘 담았는가?
REL (Relevance)	요약 내용이 기사 내용과 일치하는가?

Transformer (TLM, TLM+E(G,M)) : COH, FLU 👍
Extractive (Sent-CLF, Sent-PTR) : INF, REL 👍
Hybrid model인 TLM+E(G,M) : 요약의 사실 일치성 개선

Qualitative Results
- 긴 문서 요약에 있어서 “Extractive → Abstractive”의 2단계 구조가 효과적

suzu

이전 포스트

[NLP] Integrating Extractive and Abstractive Summarization: A Hybrid Approach

다음 포스트

[NLP] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

Paper Review

Abstract

1. Introduction

3. Framework

Extractive Models

Transformer Language Models (TLM)

4. Results and Analysis

[NLP] Integrating Extractive and Abstractive Summarization: A Hybrid Approach

[RLHF] Deep Reinforcement Learning from Human Preferences

0개의 댓글

[NLP] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

Paper Review

Abstract

1. Introduction

2. Related Work

3. Framework

Extractive Models

Transformer Language Models (TLM)

4. Results and Analysis

[NLP] Integrating Extractive and Abstractive Summarization: A Hybrid Approach

[RLHF] Deep Reinforcement Learning from Human Preferences

0개의 댓글