이 논문은 EMNLP2022에 게재된 논문으로, 모델에게 Text Segmenatation에 대한 정보를 학습하게 해 추출 요약의 성능을 높이는 방법을 제안하고 있습니다.
본 연구에서는 길이가 긴 문서(구어체, 문어체 모두)의 extractive summarization에 대해 초점을 두고 실험을 진행
또한, 요약 모델이 section boundaries를 예측하게 함으로써, 긴 문서 요약의 성능을 높이고자 함
현재 대다수의 요약은 section이 나눠져 있다는 가정 하에 written document에 집중하고 있지만, 이 방식이 spoken document에도 적용될 수 있는지는 의문
본 연구에서는 이와 같은 단서를 leverage해 spoken과 wrtten documents 둘다 요약을 잘하려 함
또한, 본 모델의 경우 동시에 2가지 task(summurization & segmentation)을 하므로 robust sentence representation을 학습 + optimization-based framework를 통해 중요하고 다양한 문장을 선택하려 함
section의 boundary를 이미 아는 written document로 모델을 학습한 후에 이를 대본과 같은 spoken document에 적용(adapt)
요약에서 핵심은 다양한 내용의 중요한 토픽을 다 담는 것이 중요하므로, 이를 가능하게 하는 새로운 regularizer을 설계
데이터셋으로는 과학 기사부터 강의 대본까지 다양한 종류의 문서를 사용했으며, 각 데이터의 평균 길이는 3k-8k가량
실험 결과, 본 모델이 SOTA를 달성하였으며, segmentation을 같이 하는 것이 더 나은 transferability를 보임을 증명
contribution
written documenets에서 spoken transcript로 transferability할 수 있는 extractive long document summarization을 제안
segmentation과 summarization을 둘다 수행하므로 효과적인 문장 표현을 학습
공개적으로 이용하능한 summarization benchmark에서 SOTA를 달성
왜 segmentation이 장문의 extractive summarization에 도움이 되는지에 대한 일련의 실험을 진행
Sentence represenstation
우선 N개의 문장을 갖는 document를 로 표현
우리의 목표는 N개의 문장 중에서 가장 중요한 정보를 가진 K개의 문장을 선택해 문서를 요약하는 것!
여기서 제안하는 모델을 Lodoss(Long document summarization with segmentation)이라고 표기
input document의 contextualized token embedding을 얻기 위해 dilated window attention버전의 Longformer을 사용
Lodoss는 Longformer위에 2개의 레이어로 이루어진 inter-sentence Transformers를 쌓음
각 문장의 시작과 끝에 [CLS], [SEP] 토큰을 추가
이 상태로 longformer에 태워서 각 문장 에 대한 i번째 [CLS]토큰의 벡터를 representation으로 사용
document-level의 context를 얻기 위해, 이 벡터들에다가 sinusoidal position embedding을 더해 2개의 레이어를 가지는 inter-sentence Transformers에 태움
여기서 나온 output vector를 으로 표기
Summarization and Section Segmentation
Notation
본 논문에서의 기본 모델, "Lodoss-base"는 모델의 문장당 empirical cross-entropy를 최소화하도록 함
"Lodoss-joint"의 경우 기본 모델에 2가지 task를 동시에 수행하도록 각각의 Task에 대한 loss를 결합
A DPP Regularizer
DPP는 문장들의 subset의 점수를 매기기 위한 probailistic measure를 정의
은 개의 문장을 가지는 ground set
추출 요약에 해당하는 subset 의 확률은 아래와 같은 식으로 주어짐(det(.)은 행렬의 determinant를 의미)
L을 구축하기 위해 quality-diversity decomposition을 사용
DPP는 만약, 요약문이 중요하고 다양한 문장의 하위집합으로 이뤄져 있다면, 보상
DPP regularizer는 ground-truth extractive summary 의 negative log-probability로 정의됨
본 논문의 최종 모델 "Lodoss-full"은 아래와 같은 loss function을 사용
Baseline Systems
extractive approach
abstractive approach
평가 지표로 ROUGE-1,2,L사용
Lodoss-base, using
Lodoss-joint, using
Lodoss-full, using
위의 장표를 보면 Lodossr계열 모델들의 성능이 여타 다른 abstractive, extractive baselines보다 더 뛰어난 것을 알 수 있음
LEAD의 경우 긴 문서에서는 뉴스에서처럼 극적인 성능이 나오지 않음
또한, approximate randomization method로 유의수준을 검정해본 결과, 99%의 신뢰수준에서 Lodoss계열 모델이 BigBird-base와 LED-4K보다 유의미하게 나음
Lodoss계열 모델들도 버전마다 성능 차이가 나는데 이는 section segmentation과 요약 수준의 DPP regularizer가 도움이 된다는 걸 가리킴
large encoder('-LG')는 둘 데이터셋 모두에서 큰 성능 향상을 보임
Results on Lecture Transcripts
scratch부터 lecture transcripts를 사용해서 학습을 하거나 arXiv 또는 PubMed로 pretrain한 후에 fine-tune
jnt = Lodoss-joint, fll = Lodoss-full, sgl = single slide is a section, grp = six major sections per transcripts
written documents에 pretrain한 모델이 더 높은 성능을 보임
arXiv로 사전 학습한거보다 PubMed로 사전학습한 경우가 대다수의 모델에서 더 높은 성능을 보임
특히, 사전학습한 모델의 경우 Lo-joint-*모델이 높은 성능을 보임
transcript section에서 각각의 슬라이드를 section으로 볼지, 한 transcript마다 6개의 section이 있다고 여길지에 대해서도 실험
결론적으로, 6개의 section으로 나누는게 더 높은 성능을 보임
Effect of Summary Length
요약문의 길이(K)를 5,6,7로 설정해서 실험
위의 장표를 보면 Lodgoss-full모델이 꾸준히 다른 모델보다 높은 성능을 보임
PubMed에서는 7개의 문장으로 요약하는게 가장 높은 성능을 냈고, arXiv에서는 5개의 문장으로 요약하는 것이 가장 좋았음
Effect of Source Sequence Length
더 긴 source sequence를 사용할수록 더 높은 성능을 보임
Model's Performance on Section Segmentation
Effect of Our DPP Regularizer
Why section Segmentation is Necessary
Human Assessment of System Summaries