[NLP] Improving Faithfulness in Abstractive Summarization with Contrast Candidate Generation and Selection (NAACL, 2022)

누렁이·2023년 6월 7일

Background

1) Faithfulness <=> Hallucination
2) Abstractive summarization <=> Extract summarization

원문에 제시된 정보와 일치하는 요약 생성하는거 어려움.
성능은 높아졌지만, hallucination 있음.
-intrinsic hallucination: 원문에 있는 정보 사용해서 합성
-extrainsic hallucination: 원문에 없는 단어로 요약에 사용

[Method]
hallucination 있는 부분 후보 & 선택해가지고 (selection) 바꾼다!
1) generation: ner 원문에 의미유형 비슷한거랑 대체해서 후보 요약 생성
2) selection: faithful 요약 높이기 위한 후보

[Contribution]

entity, number? 수정하는데 초점을 뒀다. ex.hallucination이 많이 발생해서 거기에 초점을 뒀다. => 이거 내용 작성하는 방법 봐봐야겠다.

식별을 할 때, 토큰만 달라서 모델이 알아보기 쉽지 않음. 그런 모델을 만들기 위해서 데이터가 필요함 => 데이터 생성하기 위해 xsum data에서 ground-truth 요약 모든 entity가 원문에 나타나는 데이터만 샘플링

가장 높은 점수 받은 애를 후보로 사용

ground truth 자체가 hallucination 이 있대.

충실성 평가, 요약에 있는내용으로 qa를 한다공?

human analysis 했더니 엄청 높아졌넹

왈왈