[NLP] Integrating Extractive and Abstractive Summarization: A Hybrid Approach

suzu·2025년 11월 10일

Paper Review

목록 보기

10/13

Extractive Summarization과 Abstractive Summarization 기법을 통합하여 생성 요약의 품질을 향상시키는 포괄적인 방법론 제시
Extractive Summarization 단계: KL Divergence를 활용하여 원문으로부터 핵심 문장이나 구절을 식별 및 선택함으로써 가장 관련성 높은 정보를 효과적으로 추출
추출된 문장들은 Abstractive Summarization 모델인 BART(Bidirectional and Auto-Regressive Transformers)의 입력으로 전달됨 → 요약문 생성
Extractive Summarization의 정확성(precision)과 Abstractive Summarization의 유창성(fluency) 및 일관성(coherence)을 결합함으로써, 원문 내용을 폭넓게 반영하면서도 중복이 적고 자연스러운 고품질 요약문을 생성하는 것을 목표로 함

🙁 기존의 빈도 기반 요약 기법:

텍스트의 semantic meaning이나 context를 충분히 포착하지 못함

→ 일관성이나 관련성이 부족한, 부정확한 요약 결과를 초래하는 경우 多

😊 KL Divergence + BART 로 기존의 단점 보완 시도

(L. Lebanoff, K. Song, & F. Liu, 2018) : 단일 문서 요약용으로 설계된 Neural Encoder-Decoder Framework를 다중 문서 요약(multi-document summarization)에 적용
- Maximal Marginal Relevance (MMR) 방법을 통해 여러 문서에서 대표 문장을 선택(추출)하고, 이를 결합해 Abstractive Summary ****생성
  
  ✔️ 추가 학습 데이터 없이도 작동 가능한 robust한 모델
(A. Ghadimi & H. Beigy, 2022) : HMSumm 하이브리드 요약 시스템 제안
- 문서로부터 핵심 문장 추출, Determinantal Point Process (DPP) 이용해 중복 최소화
- Abstractive Summarization: BART, T5 사용
- 최종 출력은 문장 다양성(sentence diversity)을 기준으로 선택됨
  
  ✔️ 여러 모델을 결합함으로써 요약 품질을 향상할 수 있음을 보여줌

본 연구에서는 BART pre-trained model을 기반으로 extractive와 abstractive summarization 기법을 결합한 하이브리드 문서 및 텍스트 요약 시스템을 개발하였다.

주요 목적은 원문의 핵심 아이디어를 효과적으로 전달하면서도 포괄적이고, 정보성이 높으며, 일관된 요약을 생성하는 것이다.

BART : Abstractive summarization
- 입력 텍스트를 기반으로 유창하고 문맥적으로 풍부한 요약문을 생성할 수 있음
Preprocessing step : 입력 텍스트 cleaning & normalization
- 이모지, 이메일 주소, URL, 전화번호, HTML 태그 제거
- 하이픈 단어, 불필요한 공백, 유니코드 문자, 인용 부호, 글머리 기호 등을 정규화

KL Divergence 알고리즘
- 원문의 전체 텍스트와 후보 요약문 문장 간의 단어 확률 분포 차이(KL Divergence)를 계산
- 가장 낮은 KL Divergence 값을 갖는 후보 문장들이 선택되며, 이를 통해 가장 관련성 높고 정보가 풍부한 문장들이 추출됨

입력 텍스트를 문장 단위로 분리
단어 빈도 분석(word frequency analysis): 각 문장의 중요도 계산
- 문서 전체에서 각 단어가 나타나는 확률적 비율 (단어 분포) $P(w)$ 계산
- 각 문장 $S_i$ 에 대한 단어 분포 (문장마다의 등장 단어들 상대적 확률 분포) $Q_i(w)$ 계산
KL Divergence 계산
$D_{KL}(P∥Qi)=∑_wP(w)\log {P(w) \over Q_i(w)}$
각 문장의 중요도: KL Divergence 값의 역수 또는 부호 반전된 값
→ KL Divergence가 작을수록 중요도가 높음
모든 문장에 대해 중요도 계산 후 상위 중요도를 가진 문장 선택
선택된 상위 문장들을 원래의 순서대로 정렬하여 하나의 요약문으로 결합