[NLP #5] Mutual Information Alleviates Hallucinations in Abstractive Summarization (EMNLP, 2022)

누렁이·2023년 3월 29일
0

NLP

목록 보기
5/8

paper: https://aclanthology.org/2022.emnlp-main.399.pdf
code: https://github.com/VanderpoelLiam/CPMI

Abstract

  • Background:
    • hallucinate: 요약한게 source document 내용을 제대로 반영하지 못한 경우
    • 어떤 모델이 더 hallucinated content를 생성할 확률이 높은지 확인해 봄 (= high model uncertatinty)
      • 모델들은 cintunuation이 uncertain할 때 주로 많이 나오는 단어들을 디폴트로 사용한다.
      • 이렇게 되면 decoding할 때도 방해가 된다.
  • Research Goal:
    • Propose a decoding strategy : 그냥 target token의 확률로 계산하는 게 아니라 source, target 토큰간의 PMI를 고려해 optimizing해서 모델이 uncertainty에 대응할 수 있게 한다.
  • Dataset
    • XSUM
  • Result:
    • 제안한 모델이 hallucinated token 발생 확률을 줄여주는 것을 확인함

Preliminary

  • Summarization
    • extractive summarization: 원문에서 중요한 단어 그냥 가져와서 사용 (TextRank)
    • abstractive summarization: 핵심 문맥 반영해서 새로운 문장으로 요약 (NLG 영역)
  • Hallucination in NLP
    • 제공된 소스에 대해 터무니없거나 불성실한 생성 콘텐츠
    • chatGPT의 hallucination => 사실관계랑 상관없이 그럴듯한 문장을 생성
  • Mutual Information
    • 정보이론, entropy 정보량
    • 확률이 큰 사건은 자원을 적게 쓰고, 확률이 적으면 자원을 많이 쓴다.
    • ex) 카카오톡에서 연인에게는 하트를 많이 쓰겠지? 그러니까 하트는 간략하게 표현을 해놓자. 저장해놔버리자.
    • 두개의 사건이 서로 연관되어 있는 것이다 할 때 mutual information!!
  • Eval
    • Rouge-L : 제일 긴 문장이랑 비교

Introduction

  • abstractive summarization을 할 때 probablistic text generation 모델을 사용하다보니까 hallucination이 발생
    (=> 영어 단어는 그냥 영어단어로 쓰자!)

  • model architecture

    • 1) 나올 가능성 미리 파악
    • 2) uncertatinty 부여
      조건부 엔트로피 => 이때 PMI를 쓰겠구나!
    • 3) decoding strategy 제안 : 원문과 PMI 높은 애들로 단어 선택하게 함!!

Finding and Combating Hallucinations

  • 환각을 만들어낼 때 시점이 언제인가? unfaithful 한 연속에도 높은 확률을 두기 시작할 때는 언제일까??? (질문이 너무 좋다...)
    => Uncertainty랑 관련이 있다!! 개굿

  • 그 시점을 아니까 그걸 딱 고려해서 해결책가지 제시.... wowwowowowowowowowowowowowowowoowowowowowowowowo

환각이 모델의 불확실성을 높이나, 모델의 불확실성이 환각을 높이나?

생성모델에서의 hallucination은 어떤 식일라나


profile
왈왈

0개의 댓글