SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

jihyelee·2023년 10월 5일

hallucination 논문리뷰

hallucination-lm

목록 보기

6/6

SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models arXiv 2023

분야 및 배경지식

Fact-check, hallucination
- hallucination이란, 모델이 생성하는 그럴듯한 거짓말을 의미
- 기존 연구들
  - 생성 문장의 확률 분포를 활용 (token probability, entropy)
  - 외부의 데이터베이스를 활용

문제점

기존의 Fact-check 연구들의 한계
- 확률 분포의 경우 블랙박스 세팅(=모델의 정보를 모를 경우)에서는 알 수 없음
- 외부 데이터베이스의 경우 해당 데이터베이스에 내용이 없다면 확인 불가

해결책

SelfCheck-GPT

블랙박스 모델에서 외부의 데이터베이스 없이 샘플링 기반으로 생성 문장의 사실관계를 파악하는 방법
그럴듯한 거짓말의 경우 확률적으로 샘플링한 답변들이 서로 다르거나 모순될 수 있다는 아이디어에 기반
- 사실적인 문장은 더 높은 확률과 더 낮은 엔트로피를 가진 토큰들을 포함할 것
- 그럴듯한 거짓말의 경우 불확실성이 높아 평평한 확률분포를 가질 것

BERTScore

BERTScore를 활용하여 문장 사이의 유사도를 계산

Question Answering

질의응답의 형태로 정보의 일관성을 판단
질문과 답변을 생성하는 시스템, distractor를 생성하는 시스템, 답변을 생성하는 시스템으로 이루어진 다지선다 질의응답 프레임워크 구성
생성한 답변(R; passage)과 샘플링된 샘플들(S^n; randomly-drawn passages)로 만든 답변을 비교하여 일치 여부를 판단해 베이지안 정리를 활용해 일관성 측정
- 자세한 공식은 논문 참고

N-gram

거대한 언어모델로부터 샘플링한 샘플들을 활용해 새로운 모델을 학습 가능
- 언어모델의 토큰 확률분포를 모사할 수 있음
샘플들(S^n)과 생성한 답변(R)을 활용하여 단순한 n-gram 모델 학습

평가

데이터셋
- WikiBio 활용하여 synthetic Wikipedia article 생성
- 생성한 텍스트들을 다음과 같이 분류 및 annotate
  - 완전한 hallucination (major inaccurate, non-factual, 1)
  - 일부 hallucination 있으나 주제 연관성 존재 (minor inaccurate, non-factual, 0.5)
  - 정확 (factual, 0)
모델
- GPT-3
실험 결과
- 거대한 언어모델의 확률은 사실관계(factuality)와 긴밀한 연관관계
- grey-box 확률분포 기반 방법론들보다 좋은 성능을 보임
  - 특히, unigram(max) 기반 SelfCheck-GPT가 좋은 성능
  - n-gram 모델의 평균을 구하는 것보다 가장 확률이 작은 token/n-gram을 활용하는 것이 유리

한계

BERTScore, QA, N-gram 등 모두 별도의 모델 혹은 학습이 필요
- 비전문가 사용자가 활용하기는 다소 한계가 존재

의의

BERTScore, QA, N-gram 등 다양한 방식을 활용 및 실험
거대한 언어모델의 능력을 활용해 black-box에서도 적용 가능한 방식

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

이전 포스트

Self-contradictory Hallucinations of Large Language Models: Evaluation, Detection and Mitigation

0개의 댓글