# abstractive

[Dataset] XSum
1. Introduction > - The XSum dataset consists of 226,711 Wayback archived BBC articles ranging over almost a decade (2010 to 2017) and covering a wide variety of domains (e.g., News, Politics, Sports, Weather, Business, Technology, Science, Health, Family, Education, Entertainment and Arts). paperswithcode: https://paperswithcode.com/dataset/xsum Github: https://github.com/EdinburghNLP/XSum (Model 및 Dataset 전체 Repo.) Download: https://github.com/EdinburghNLP/XSum/tree/master/XSum-
[Dataset] CNN Daily Mail
1. Introduction > - CNN/Daily Mail is a dataset for text summarization. Human generated abstractive summary bullets were generated from news stories in CNN and Daily Mail websites as questions (with one of the entities hidden), and stories as the corresponding passages from which the system is expected to answer the fill-in the-blank question. Download: tensorflow datasets: Link 2. 특징 언어: English 요약문을 포함하는 뉴스
[NLP] Improving Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection (NAACL, 2022)
Background 1) Faithfulness Hallucination 2) Abstractive summarization Extract summarization Introduction 원문에 제시된 정보와 일치하는 요약 생성하는거 어려움. 성능은 높아졌지만, hallucination 있음. -intrinsic hallucination: 원문에 있는 정보 사용해서 합성 -extrainsic hallucination: 원문에 없는 단어로 요약에 사용 [Method] hallucination 있는 부분 후보 & 선택해가지고 (selection) 바꾼다! 1) generation: ner 원문에 의미유형 비슷한거랑 대체해서 후보 요약 생성 2) selection: faithful 요약 높이기 위한 후보 [Contribution] Method entity, number? 수정하는데 초점을 뒀다. ex.hallucination이 많이 발생해서 거

[Paper Review] PEGASUS:Pre-training with Extracted Gap-sentences for Abstractive Summarization
Intro 최근 NLP의 downstream tasks 중 하나인 Summarization분야에 "PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization"이라는 새로운 논문(멋진 이름이다..)이 등장하여 간략하게 소개해보려고 한다. What is Text Summarization? Text Summarization은 자연어 처리 분야의 여러 개의 Downstram tasks중 하나이다. 이름에서부터 쉽게 알 수 있듯이 Text Summarization은 문서를 요약하는 기술을 의미한다. Text Summarization은 크게 아래와 같이 두 가지로 분류가 된다. > **1. Extr