paper: https://aclanthology.org/2022.emnlp-main.399.pdf
code: https://github.com/VanderpoelLiam/CPMI
Abstract
- Background:
- hallucinate: 요약한게 source document 내용을 제대로 반영하지 못한 경우
- 어떤 모델이 더 hallucinated content를 생성할 확률이 높은지 확인해 봄 (= high model uncertatinty)
- 모델들은 cintunuation이 uncertain할 때 주로 많이 나오는 단어들을 디폴트로 사용한다.
- 이렇게 되면 decoding할 때도 방해가 된다.
- Research Goal:
- Propose a decoding strategy : 그냥 target token의 확률로 계산하는 게 아니라 source, target 토큰간의 PMI를 고려해 optimizing해서 모델이 uncertainty에 대응할 수 있게 한다.
- Dataset
- Result:
- 제안한 모델이 hallucinated token 발생 확률을 줄여주는 것을 확인함
Preliminary
- Summarization
- extractive summarization: 원문에서 중요한 단어 그냥 가져와서 사용 (TextRank)
- abstractive summarization: 핵심 문맥 반영해서 새로운 문장으로 요약 (NLG 영역)
- Hallucination in NLP
- 제공된 소스에 대해 터무니없거나 불성실한 생성 콘텐츠
- chatGPT의 hallucination => 사실관계랑 상관없이 그럴듯한 문장을 생성
- Mutual Information
- 정보이론, entropy 정보량
- 확률이 큰 사건은 자원을 적게 쓰고, 확률이 적으면 자원을 많이 쓴다.
- ex) 카카오톡에서 연인에게는 하트를 많이 쓰겠지? 그러니까 하트는 간략하게 표현을 해놓자. 저장해놔버리자.
- 두개의 사건이 서로 연관되어 있는 것이다 할 때 mutual information!!
- Eval
Introduction
Finding and Combating Hallucinations
환각이 모델의 불확실성을 높이나, 모델의 불확실성이 환각을 높이나?
생성모델에서의 hallucination은 어떤 식일라나