문제 정의
- context가 주어졌을 때, 핵심을 나타낼 수 있는 키워드나 문장을 고르는 것.
MatchSum
- 기존의 Extractive summairzation 모델은 문장 단위의 scoring으로 문서를 요약한다. 그러나 이 방법은 context와 target summary 사이를 적절히 고려하지 못한 요약이라 주장한다.
- 본 모델은 2 stage로 진행된다. summary 후보군을 추출하고, 매칭하는 방식이다. context와 summary 후보군이 semantic space에서 매칭될 것이라 가정한다.
- 논문: Extractive Summarization as Text Matching
- 코드: MatchSum
- 키워드: Document Summarization, Extractive Summarization, Semantic Text Matching, Text Matching, Text Summarization
- 학습 자료: 고려대학교 산업경영공학부 DSBA 연구실 Paper Review
BertSumExt
- 문장에 대한 표현을 만들어주는 BERT를 기반으로 documnet-level-encoder를 제안하여 문서 요약이 가능한 프레임워크를 제시했다.
- BERT의 인코더 위에 몇 개의 inter-sentece 트랜스포머 레이어를 추가하였다.
- 논문: Text Summarization with Pretrained Encoders
- 코드: github
- 키워드: BERT, extractive, abstractive, summarization encoder, extractive summarization,
- 학습 자료: https://aimaster.tistory.com/46
데이터
- CNN/DailyMail
- CNN과 Daily Mail의 뉴스 기사 데이터셋.
- 원본문서에서 나타나는 엔티티들을 익명화하여 변환 후, “X”로 명기된 엔티티(단어 또는 구/절)를 찾아야 하는 질문셋 1,384,887건.
- 그러나 이 데이터셋은 에러가 많이 포함되어 있다는 지적이 있으며, 엔티티에 대한 빈칸 채우기 문제(Cloze type question)는 독해력 난이도가 낮아 사람의 성능과 근접한 연구결과가 도출되고 있어 기계의 독해력 판별에는 변별력이 낮다는 지적이 제기된다.
좋은 글 감사합니다