SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models

jihyelee·2023년 10월 5일
0

hallucination-lm

목록 보기
6/6

SELFCHECKGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models arXiv 2023

분야 및 배경지식

  • Fact-check, hallucination
    • hallucination이란, 모델이 생성하는 그럴듯한 거짓말을 의미
    • 기존 연구들
      • 생성 문장의 확률 분포를 활용 (token probability, entropy)
      • 외부의 데이터베이스를 활용

문제점

  • 기존의 Fact-check 연구들의 한계
    • 확률 분포의 경우 블랙박스 세팅(=모델의 정보를 모를 경우)에서는 알 수 없음
    • 외부 데이터베이스의 경우 해당 데이터베이스에 내용이 없다면 확인 불가

해결책

SelfCheck-GPT

  • 블랙박스 모델에서 외부의 데이터베이스 없이 샘플링 기반으로 생성 문장의 사실관계를 파악하는 방법
  • 그럴듯한 거짓말의 경우 확률적으로 샘플링한 답변들이 서로 다르거나 모순될 수 있다는 아이디어에 기반
    • 사실적인 문장은 더 높은 확률과 더 낮은 엔트로피를 가진 토큰들을 포함할 것
    • 그럴듯한 거짓말의 경우 불확실성이 높아 평평한 확률분포를 가질 것

BERTScore

  • BERTScore를 활용하여 문장 사이의 유사도를 계산

Question Answering

  • 질의응답의 형태로 정보의 일관성을 판단
  • 질문과 답변을 생성하는 시스템, distractor를 생성하는 시스템, 답변을 생성하는 시스템으로 이루어진 다지선다 질의응답 프레임워크 구성
  • 생성한 답변(R; passage)과 샘플링된 샘플들(S^n; randomly-drawn passages)로 만든 답변을 비교하여 일치 여부를 판단해 베이지안 정리를 활용해 일관성 측정
    • 자세한 공식은 논문 참고

N-gram

  • 거대한 언어모델로부터 샘플링한 샘플들을 활용해 새로운 모델을 학습 가능
    • 언어모델의 토큰 확률분포를 모사할 수 있음
  • 샘플들(S^n)과 생성한 답변(R)을 활용하여 단순한 n-gram 모델 학습

평가

  • 데이터셋
    • WikiBio 활용하여 synthetic Wikipedia article 생성
    • 생성한 텍스트들을 다음과 같이 분류 및 annotate
      • 완전한 hallucination (major inaccurate, non-factual, 1)
      • 일부 hallucination 있으나 주제 연관성 존재 (minor inaccurate, non-factual, 0.5)
      • 정확 (factual, 0)
  • 모델
    • GPT-3
  • 실험 결과
    • 거대한 언어모델의 확률은 사실관계(factuality)와 긴밀한 연관관계
    • grey-box 확률분포 기반 방법론들보다 좋은 성능을 보임
      • 특히, unigram(max) 기반 SelfCheck-GPT가 좋은 성능
      • n-gram 모델의 평균을 구하는 것보다 가장 확률이 작은 token/n-gram을 활용하는 것이 유리

한계

  • BERTScore, QA, N-gram 등 모두 별도의 모델 혹은 학습이 필요
    • 비전문가 사용자가 활용하기는 다소 한계가 존재

의의

  • BERTScore, QA, N-gram 등 다양한 방식을 활용 및 실험
  • 거대한 언어모델의 능력을 활용해 black-box에서도 적용 가능한 방식
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab

0개의 댓글