A Token-level Reference-free Hallucination Detection Benchmark for Free-form Text Generation

jihyelee·2023년 8월 1일

hallucination-lm

목록 보기

3/6

hallucination (환각; 그럴듯한 거짓말)
- 거대한 사전학습 생성형 언어모델이 가지고 있는 주요 문제 중 하나
- 존재하지 않거나 정확하지 않은 내용을 모델이 마치 사실처럼 응답하는 문제

HADES (HAllucination DEtection dataSet)

원시 데이터 수집
- 영어 WIKI-40B 활용
문맥에 작은 변화(perturbation) 주기
- 유창성(fluency)과 구문적(syntactic) 정확성, 어휘적(lexical) 다양성을 유지하면서 내용 변화
- MASK: 일부 단어를 [MASK] 토큰으로 가리기
- REPLACE: top-k sampling 이용해 BERT로 하여금 [MASK] 토큰 예측 및 치환하도록
- RANK: GPT-2를 활용해 perplexity가 낮은 후보군만 유지
데이터 주석(annotation)
- human annotation
  - 전체 데이터 중 상대적으로 유용하고, 균형잡힌 분포를 가진 데이터들 일부에 대해서 진행
  - 여러 명이 합의에 도달할 경우에 데이터 유지
- iterative model-in-the-loop annotation
  - 비교적 명확하게 분류되는(more trivial) 데이터의 경우 사람이 주석을 달 필요가 없음
  - 감지 모델이 낮거나 높은 확률을 부여하거나, 원래의 문맥과 유사도가 높거나, 날짜나 이름을 치환하는 등 명백한 hallucination인 경우 제외
  - 또한 레이블 사이의 분포가 균형잡히게끔 샘플링 진행 (H/N = 54.5%/45.5%)

데이터셋
- hallucination은 더 높은 엔트로피와 연관되는 경우가 많음
- hallucination은 사실적으로 일관된 내용보다 더 높은 평균 확률을 보임
  - 모델이 과하게 확신하는 생성 결과가 hallucination에 빠질 가능성이 높음
모델
- 피처 기반 모델
  - 로지스틱 회귀, 서포트 벡터 머신
- 트랜스포머 기반 모델
  - BERT, GPT-2, XLNet, RoBERTa
평가기준
- accuracy, precision, recall, F1, AUC, G-Mean, Brier Skill Score
결과
- 오프라인 세팅에서 모든 모델이 더 좋은 성능을 보임
  - 사전학습 모델이 피처 기반 모델보다 훨씬 좋은 성능을 보임
- GPT-2가 전반적으로 가장 우수한 성능

perturbation을 통해 만든 hallucination 데이터셋이 과연 모델의 hallucination을 얼마나 잘 모사하는지 의문이 듦
- 특히 perturbation 시 GPT 기반의 생성형 언어모델이 아니라 BERT를 사용했다는 점에서 한계 존재

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

2023년 8월 1일

유익한 글이었습니다.

답글 달기