[NLP] On Extractive and Abstractive Neural Document Summarization with Transformer Language Models

suzu·2025년 11월 10일

Paper Review

목록 보기
11/13

https://aclanthology.org/2020.emnlp-main.748.pdf

Abstract

  • 수천 단어를 초과하는 긴 문서에 대해 neural abstractive summarization을 수행할 수 있는 방법

  • 요약을 생성하기 전에 먼저 간단한 extractive 단계를 수행하고, 그 결과를 사용하여 Transformer Language Model이 요약을 생성하기 전에 관련 정보에 조건화되도록 함

  • Copy mechanism을 사용하는 기존 연구보다 더 높은 ROUGE 점수 달성

  • Strong baseline / 기존 SOTA / Transformer 기반 접근 / Extractive 기반 / 하이브리드 모델 등을 비교함

  • 사용한 데이터셋 : arXiv papers / PubMed papers / Newsroom / BigPatent datasets

  • Transformer 기반 모델이 n-gram 복사가 적어서 사람의 요약과 가장 비슷함

  • Human evaluation

    • Transformer 기반: 일관성, 유창성 good
    • Extractive only: 정보성, 관련성 good

1. Introduction

  • Automatic Text Summarization : 문서의 핵심 정보와 의미를 유지하면서 내용을 압축하는 과정
    • Extractive summarization : 입력 문서에서 일부 단어, 구, 문장을 선택하여 요약을 구성

      😊 핵심 정보 보존

      🙁 여러 문장을 단순히 이어 붙이는 것 → 흐름이 다소 어색할 수 있음

    • Abstractive summarization : 원문에 포함된 핵심 아이디어를 자연어로 재구성(paraphrase)하여 새로운 문장을 만들어내는 것

      😊 자연스러운 문장 생성

      🙁 원문의 사실성을 유지해야 함 (faithful)

  • 웹 문서에 종종 포함되는 요약 덕분에 Transformer Language Model (TLM)은 비의도적으로 요약 기능을 학습할 수 있지만, 이러한 비의도적 학습은 문서의 내용을 충분히 반영할 수 없음

  • 본 연구에서는 Transformer 모델을 의도적이고 집중적으로 요약 작업에 최적화하는 방법을 탐구

    • 입력 텍스트의 구절을 단순히 순서대로 배열하고, task definition과 트레이닝 절차를 올바르게 구성함으로써 달성 가능한 성과를 탐구
    • 이 접근법을 simple but high quality extractive techniques와 결합할 때의 성능 향상도 탐구
  • 하이브리드 접근법의 필요성

    • Pure LM은 긴 문서에서 메모리 한계로 인해 학습 및 추론이 어려움
    • 긴 문서의 많은 문장들이 요약에 필요하지 않음
  • Extractive 단계로 문맥을 축소한 뒤, 그 결과를 abstractive 단계의 입력으로 사용

  • TLM의 입력 재구성

    • 문서 재정렬

    • 표준화된 구분자 삽입
      - Introduction
      - Extracted Sentences
      - Abstract or Summary
      - Rest of the Article

      → TLM이 요약에 필요한 핵심 정보에 집중할 수 있도록

  • Contribution

    • Extractive + Abstractive Hybrid 모델을 포함한 다양한 구조의 대규모 실험을 수행

    • 강력한 baseline 및 기존 SOTA 모델과의 정량적 비교

    • ROUGE 점수, n-gram 복사율 분석, human evaluation을 통한 종합 평가 수행

      → 하이브리드 접근법 성능 좋았음

2. Related Work

기존 연구는 대체로 extractive 또는 copy mechanism을 사용하는 하이브리드 모델에 머물러 있었으나,

본 논문은 Transformer Language Model을 이용해

  • Copy 없이도 더 높은 수준의 abstractive summarization을 달성하고,
  • Extractive 단계의 정보로 Transformer를 효과적으로 conditioning함으로써

긴 문서 요약 문제를 해결하는 새로운 방향을 제시

3. Framework

Extractive Models

  • 두 가지 extractive 방법 사용:

    (a) Sentence Pointer Network

    (b) Sentence Classifier

  • 데이터셋(도메인/테스크)에 따라 좋은 방법이 다름

  • Extractive 단계는 단순히 문장을 고르는 역할이 아니라, Transformer가 “어떤 문맥을 보고 요약을 생성해야 할지”를 효과적으로 제한하는 hard attention 역할을 수행

  • Hierarchical Seq2seq Sentence Pointer

    • Encoder: hierarchical bidirectional LSTM

      • Sentence-encoder (word-level ; token-level) LSTM: 문장 표현 생성
      • Document-encoder (sentence-level) LSTM: 문서 표현 생성
    • Decoder: autoregressive pointer LSTM

      • Pointer Network처럼 동작. 문서 내에서 다음에 선택할 문장을 하나씩 지목(point)함
      • Dot product attention mechanism 사용

    • 문서 DD의 문장 SS N개, 타깃 요약 TT의 문장 SS’ M개를 가지고

    • ROUGE - 1/2/L 스코어의 평균값을 구함 (NxM개)

    • TT의 각 요약문(SS’)마다의 ground-truth: 문서 DD의 문장들 중 스코어 가장 높은 2개 순서대로 정렬(2M개)

    • 선택된 2M개의 문장을 TLM의 context로 투입함
      → 더 구조화되고 풍부한 extractive summarization이 가능해짐

  • Sentence Classifier

    : 문장마다 요약에 포함될 확률을 예측하는 분류기(classifier)

    • 문서를 hierarchical LSTM으로 인코딩
    • 각 문장의 representation과 전체 문서의 평균 representation을 결합
    • Sigmoid를 씌워 확률 계산
    • BCE (binary cross-entropy) loss 이용해 학습
      → 각 문장이 요약에 포함되는지 여부를 맞히는 이진 분류 문제

➡️ Extractive model에서는 pointer와 classifier를 통해 “문서에서 핵심 문장을 추출”함

이를 통해 transformer(TLM)에 필요한 요약 전의 context를 제공

Transformer Language Models (TLM)

  • Abstractive summarization을 Seq2Seq **구조 대신 단일 Transformer LM**으로 수행 i.e. Encoder-Decoder ❌, 하나의 autoregressive LM이 모든 요약 과정을 담당
  • GPT-2와 동일한 구조
  • 학습 데이터:
    • 논문(기사)의 Introduction

    • Extractive 모델이 선택한 중요 문장들 (Extracted Sentences)

    • Abstract or Summary

    • 나머지 본문 (Rest of the Article)

      → 구분자 토큰으로 위와 같이 나누어 TLM이 학습하도록 함

      → 모델은 이 순서를 학습하면서 요약(abstract)이 이전 문맥으로부터 자연스럽게 이어지는 구조를 배움


    • 실제 학습 시 Ground-truth extracted sentences를 사용해 학습함

  • 추론 (inference)
    • 입력: Introduction + Extracted Sentences

    • 출력: Abstract


    • 모델이 직접 선택한 extracted sentences를 사용

    • Start of the Summary 토큰 삽입해 요약 생성 시작

    • Rest of the Article은 도메인 내 추가 학습 데이터로 활용

    • Top-k sampling (k=30), softmax temperature=0.7

  • 데이터셋 및 전처리
    • 사용한 데이터셋: arXiv, PubMed, BigPatent, Newsroom
    • Subword 분리: Byte Pair Encoding (BPE), 40,000 merge operations
    • Pointer Network의 메모리 한계로, 문서는 최대 300문장, 각 문장은 35토큰으로 제한

➡️ Transformer LM (Abstractive)에서는 Extracted sentences + 일부 본문을 입력받아 요약 생성

4. Results and Analysis

  • Evaluation
    • ROUGE-1, ROUGE-2, ROUGE-L의 full-length F1 score

      💡

      ROUGE는 단어 중복률 기반 지표이므로 Extractive 모델에 유리함
      Abstractive 모델의 유창성(fluency)이나 가독성(readability)을 충분히 반영하지 못함

      → 본 연구에서는 Human Evaluation도 함께 수행

  • Comparison
    • Extractive: Lead-10, LexRank, SumBasic

    • Abstractive: Seq2Seq

    • Hybrid (Mixed): Pointer-Generator, Discourse-Aware, Bottom-Up

    • Oracle (이론적 upper bound): Gold Ext, TLM+E(G,G)


    • Ours:
      - Sent-CLF (Extractive) 👍 PubMed
      - Sent-PTR (Extractive) 👍 arXiv
      - TLM (Abstractive)
      - TLM+E(G,M) (Hybrid) 👍 bigPatent, Newsroom

      ➡️ Transformer LM이 Extracted Sentences로 조건화될 때 단순 Transformer보다 훨씬 좋은 요약 품질을 달성, Copy 없이도 SOTA 수준 성능 달성

  • Abstractiveness of generated abstracts
    • Transformer LM은 인간 요약문과 비슷한 수준의 낮은 n-gram 중복률을 보였다.
    • Pointer-Generator 모델은 10% 이상의 20-gram 복사율을 보였으며, 이는 원문을 거의 그대로 가져오는 경향이 있음을 의미한다.
  • Human Evaluation
    평가 항목의미
    COH (Coherence)요약이 전체적으로 자연스럽고 논리적인가?
    FLU (Fluency)문법적이고 읽기 쉬운가?
    INF (Informativeness)기사에서 핵심 정보를 잘 담았는가?
    REL (Relevance)요약 내용이 기사 내용과 일치하는가?
    • Transformer (TLM, TLM+E(G,M)) : COH, FLU 👍
    • Extractive (Sent-CLF, Sent-PTR) : INF, REL 👍
    • Hybrid model인 TLM+E(G,M) : 요약의 사실 일치성 개선
  • Qualitative Results
    • 긴 문서 요약에 있어서 “Extractive → Abstractive”의 2단계 구조가 효과적

0개의 댓글