LLM Hallucination

Youngho LEE·2025년 9월 7일

할루시네이션(Hallucination): LLM이 그럴듯하지만 사실과 다른(또는 근거가 불충분한) 내용을 만들어내는 현상

다음 토큰 예측의 본성: 모델은 “진실”이 아니라 확률적으로 그럴듯한 다음 단어를 예측. 지식 최신화·정확 근거 연결이 어려움.
데이터/분포 변화·프롬프트 애매성·디코딩 랜덤성·미보정 불확실성: 오답에 과신(confidence miscalibration). 최근 분석은 이런 구조적 한계를 체계화

대응 핵심 6가지

1. RAG(검색+생성)로 출처에 근거
2. 툴 사용(계산·검색 등)으로 검증
3. 자가검증/CoVe·SelfCheck
4. 정렬/정책학습(Constitutional AI 등)
5. 불확실성 추정·거절(abstain)
6. 지표(groundedness/faithfulness)로 상시 평가

대표적 대응 전략

RAG(검색증강생성)로 “근거-우선” 설계
• 외부 지식(문서/DB/웹)을 검색해 인용 가능한 패시지를 넣고 답변을 생성·인용. 초기 RAG 논문은 개방형 QA 등에서 사실성 개선을 보였음.
툴 사용으로 정답성 강화
• 계산기·검색·DB·번역기 등 API를 모델이 스스로 호출해 결과를 반영(예: Toolformer). 수치/사실 검증에 유리함.
자가 검증(Self-Verification)·샘플 일관성 검사
• SelfCheckGPT: 같은 질문을 여러 번 샘플링해 사실 일관성을 점검, 불일치가 크면 의심.
• Chain-of-Verification(CoVe): 초안→검증질문 계획→독립 답변→최종 정답의 절차로 할루시네이션 감소.
정렬 학습(Alignment)로 “무리한 답변” 억제
• Constitutional AI(RLAIF) 등은 원칙 기반 자기비평/보상으로 유해·부정확 응답을 회피하도록 훈련(완전한 사실 보장은 아님).
불확실성 추정 & 거절(abstention)
• Semantic Entropy(자연): 여러 샘플의 의미적 다양성(엔트로피)로 ‘잡설(confabulation)’ 감지, 고비용이 한계. 후속 연구는 비용을 낮춘 SEP 제안.
• 신뢰 낮으면 “모름/확인 필요”로 거절 또는 추가 검색로 전환.
지표·평가로 상시 모니터링
• Groundedness(근거성): 답의 각 주장(claim)이 제공 컨텍스트로 검증 가능한가를 평가지표로 측정(Azure 등).
• RAGAS(오픈소스): faithfulness / answer relevancy / context recall 등 RAG 품질지표 제공.

Youngho LEE

개발자

이전 포스트

Pre-trained model

다음 포스트

LLM Hallucination

대응 핵심 6가지

대표적 대응 전략

Pre-trained model

모델 크기와 성능 둔화

0개의 댓글