Survey of Hallucination in Natural Language Generation
arXiv, 2022
Hallucination
- 심리학에서의 hallucination
- 진짜처럼 느껴지는 가짜 인식(perception)
- a percept, experienced by a waking individual, in the absence of an appropriate stimulus from extracorporeal world
- 자연어 생성모델의 hallucination
- 제공된 문맥과 상관이 없거나(nonsensical) 문맥과 상충되는(unfaithful) 내용을 생성
intrinsic hallucination (내재적 환각)
- 주어진 문맥에 모순되는 결과를 생성
- e.g. 주어진 문맥에 "2019년 FDA에 의해 첫번째 에볼라 백신이 승인되었다" 라는 내용이 있음에도 언어모델이 "첫번째 에볼라 백신은 2021년에 승인되었다"라는 요약을 생성할 경우
extrinsic hallucination (외재적 환각)
- 주어진 문맥으로부터 확인할 수 없는 결과를 생성
- e.g. 언어모델이 "중국은 이미 COVID-19 백신의 임상실험을 시작하였다"라는 문장을 생성하였으나, 주어진 문맥에서 이와 관련된 정보의 진위를 확인할 수 없을 경우
함께 자주 사용되는 용어들
- Faithfulness (충실함)
- 주어진 내용(source)에 일관되거나 진실된 상태를 의미
- hallucination의 반의어로 사용됨
- Factuality (사실성)
- 사실에 기반하거나 정확한 상태를 의미
- 사실을 어떻게 정의하느냐에 따라 Faithfulness와 유사할 수 있으나, 이 논문에서는 세상의 지식(world knowledge)=사실로 정의
Hallucination의 원인
데이터
- source와 reference(target)에 차이(=divergence)가 있는 경우
- heuristic data collection (휴리스틱 데이터 수집)
- source로는 알 수 없는 정보를 target reference가 포함할 수 있음
- 중복되는 데이터가 제대로 필터링되지 않을 수 있음
- innate divergence (내재적 차이)
- 태스크 특성 자체가 source와 target reference 사이의 1:1 대응을 지원하지 않을 수 있음
- e.g. open-domain 대화 태스크처럼 생성된 아웃풋의 다양성이 중요한 경우
학습 및 추론
- 학습 및 모델링 방식
- imperfect representation learning (불완전한 표현 학습)
- 이해 능력에 결함이 있는 인코더의 경우 잘못된 상관관계를 학습할 수 있음
- erroneous decoding (오류가 있는 디코딩)
- 디코더가 인코딩된 input의 잘못된 부분을 참조할 수 있음
- 디코딩 전략(e.g. top-k; 생성 다양성을 높임)이 hallucination을 높일 수 있음
- exposure bias
- 학습 과정에서는 일반적으로 teacher-forcing을 통해 생성 도중 잘못된 토큰을 예측을 하더라도 정답으로 수정 가능
- 하지만 추론 과정에서는 정답을 알 수 없기 때문에 시퀀스 중간에 잘못된 예측을 하더라도 수정할 수 없고, 잘못된 예측결과를 바탕으로 이후의 토큰을 예측해야 함
- parametric knowledge bias
- 모델은 파라미터에 지식을 저장하고 있는데, 이를 parametric knowledge라고 일컬음
- 모델이 주어진 input보다 parametric knowledge를 우선시할 경우 hallucination 발생 가능
Hallucination 평가 기준
통계적 평가 기준
- 생성된 결과와 정답 사이에 얼마나 많은 단어들(n-gram; lexical)이 겹치거나 모순되는지 측정
- 단어 정보만을 활용하기 때문에 의미적(syntactic, semantic) 다양성을 평가할 수 없음
- e.g. PARENT, PARENT-T, Knowledge F1, BVSS(bag-of-vectors sentence similarity)
모델 기반 평가 기준
- 모델로 하여금 hallucination 정도를 측정하도록 함
- Information Extraction (IE)
- 지식을 단순한 형태(e.g. 주어, 관계, 목적어)로 표현하여 비교
- QA
- 질문생성 모델 및 질문답변 모델을 활용하여 모델이 생성한 답변들 사이의 유사성 측정
- Natural Language Inference (NLI)
- source와 생성된 텍스트 사이의 수반(entailment) 확률 활용
- Faithful Classification
- 신뢰성(faithfulness) 특화 데이터셋 활용
- Language Model (LM)
- target으로만 학습한 unconditional LM과 source, target으로 학습한 conditional LM 활용
- 모델이 생성한 오류가 전파되어 정확한 hallucination 측정에 부정적 영향을 미칠 수 있음
사람 평가
Hallucination 완화 방법
데이터 기반
- 신뢰성 높은 데이터셋 만들기
- 데이터를 자동으로 필터링 및 교정
- input을 외부 정보를 활용해 증가(augment)
모델 및 추론 기반
- encoder, attention, decoder 등 모델 아키텍처 보완
- 학습
- 후처리
향후 연구방향
평가 기준
- 더욱 정교화된(fine-grained) 평가 지표 필요
- 사실 확인(fact-checking)과 관련된 평가 지표 필요
- 세상의 지식으로부터 외부 정보를 취합할 때 해당 정보의 신뢰성을 제대로 판단해야 함
- 증거로 가져온 정보(e.g. from Web)가 과연 옳은 정보인가
- 일반화가 가능해야 하며, 사람의 인지적인 관점(cognitive perspective)을 포함해야 함
완화 방법
- 일반적이고 강건한 데이터 전처리 방법 필요
- 숫자와 관련한 hallucination 완화 방법 필요
- 많은 hallucination 연구들이 intrinsic, extrinsic을 구분하지 않음
- extrinsic hallucination 완화 연구 필요
- 긴 텍스트에서의 hallucination 완화 방법 필요
- reasoning, controllability 관련 연구 또한 필요
GPT-4o가 만들어준 섬네일용 이미지; 논문과 무관