[NLP] Integrating Extractive and Abstractive Summarization: A Hybrid Approach

suzu·2025년 11월 10일

Paper Review

목록 보기
10/13

https://www.scitepress.org/Papers/2025/136024/136024.pdf

Abstract

  • Extractive SummarizationAbstractive Summarization 기법을 통합하여 생성 요약의 품질을 향상시키는 포괄적인 방법론 제시

  • Extractive Summarization 단계: KL Divergence를 활용하여 원문으로부터 핵심 문장이나 구절을 식별 및 선택함으로써 가장 관련성 높은 정보를 효과적으로 추출

  • 추출된 문장들은 Abstractive Summarization 모델인 BART(Bidirectional and Auto-Regressive Transformers)의 입력으로 전달됨 → 요약문 생성

  • Extractive Summarization의 정확성(precision)과 Abstractive Summarization의 유창성(fluency)일관성(coherence)을 결합함으로써, 원문 내용을 폭넓게 반영하면서도 중복이 적고 자연스러운 고품질 요약문을 생성하는 것을 목표로 함

1. Introduction

🙁 기존의 빈도 기반 요약 기법:

텍스트의 semantic meaning이나 context를 충분히 포착하지 못함

→ 일관성이나 관련성이 부족한, 부정확한 요약 결과를 초래하는 경우 多

😊 KL Divergence + BART 로 기존의 단점 보완 시도

2. Literature Survey (Prior research)

  • (L. Lebanoff, K. Song, & F. Liu, 2018) : 단일 문서 요약용으로 설계된 Neural Encoder-Decoder Framework를 다중 문서 요약(multi-document summarization)에 적용
    • Maximal Marginal Relevance (MMR) 방법을 통해 여러 문서에서 대표 문장을 선택(추출)하고, 이를 결합해 Abstractive Summary ****생성

      ✔️ 추가 학습 데이터 없이도 작동 가능한 robust한 모델

  • (A. Ghadimi & H. Beigy, 2022) : HMSumm 하이브리드 요약 시스템 제안
    • 문서로부터 핵심 문장 추출, Determinantal Point Process (DPP) 이용해 중복 최소화

    • Abstractive Summarization: BART, T5 사용

    • 최종 출력은 문장 다양성(sentence diversity)을 기준으로 선택됨

      ✔️ 여러 모델을 결합함으로써 요약 품질을 향상할 수 있음을 보여줌

3. Design and Principle of Model

본 연구에서는 BART pre-trained model을 기반으로 extractiveabstractive summarization 기법을 결합한 하이브리드 문서 및 텍스트 요약 시스템을 개발하였다.

주요 목적은 원문의 핵심 아이디어를 효과적으로 전달하면서도 포괄적이고, 정보성이 높으며, 일관된 요약을 생성하는 것이다.

Pre-trained Model Selection and Preprocessing

  • BART : Abstractive summarization
    • 입력 텍스트를 기반으로 유창하고 문맥적으로 풍부한 요약문을 생성할 수 있음
  • Preprocessing step : 입력 텍스트 cleaning & normalization
    • 이모지, 이메일 주소, URL, 전화번호, HTML 태그 제거
    • 하이픈 단어, 불필요한 공백, 유니코드 문자, 인용 부호, 글머리 기호 등을 정규화

Extractive Summarization

  • KL Divergence 알고리즘
    • 원문의 전체 텍스트와 후보 요약문 문장 간의 단어 확률 분포 차이(KL Divergence)를 계산
    • 가장 낮은 KL Divergence 값을 갖는 후보 문장들이 선택되며, 이를 통해 가장 관련성 높고 정보가 풍부한 문장들이 추출됨
  1. 입력 텍스트를 문장 단위로 분리
  2. 단어 빈도 분석(word frequency analysis): 각 문장의 중요도 계산
    • 문서 전체에서 각 단어가 나타나는 확률적 비율 (단어 분포) P(w)P(w) 계산
    • 각 문장 SiS_i에 대한 단어 분포 (문장마다의 등장 단어들 상대적 확률 분포) Qi(w)Q_i(w) 계산
  3. KL Divergence 계산
    DKL(PQi)=wP(w)logP(w)Qi(w)D_{KL}(P∥Qi)=∑_wP(w)\log {P(w) \over Q_i(w)}
  4. 각 문장의 중요도: KL Divergence 값의 역수 또는 부호 반전된 값
    → KL Divergence가 작을수록 중요도가 높음
  5. 모든 문장에 대해 중요도 계산 후 상위 중요도를 가진 문장 선택
  6. 선택된 상위 문장들을 원래의 순서대로 정렬하여 하나의 요약문으로 결합

Abstractive Summarization

  • Extractive 단계에서 추출된 핵심 문장들을 BART의 입력으로 사용
  1. 입력 텍스트 tokenizing
  2. 요약문 생성 - BART의 내용 이해/재구성 능력 기반: 원문 의미 유지 및 간결성

Hybrid Summarization

  • Extractive와 Abstractive 접근법의 장점을 결합, 각자의 한계 보완
  • 일관성 있고 내용적으로 풍부한 요약문 생성
  • 정보성이 높고, 간결하며, 원문과의 문맥적 일치도 우수

4. Results

  • 객관적 성능 평가 지표
    • ROUGE - 1/2/L (Recall, Precision, F1 score)
      - 단어 중복 기반
    • BERT Score (BERT Recall, BERT Precision, BERT F1 score)
      - pre-trained language model을 활용하여 생성 요약문과 참조 요약문 간의 의미적 유사도(semantic similarity)를 측정
      - 단순한 단어 중복 기반이 아닌 contextualized embedding을 사용하여, 더 정교하고 의미론적인 성능 평가를 제공

0개의 댓글