2402.17982
논문 "Collaborative Decoding of Critical Tokens for Boosting Factuality of LLMs"는 사실성(factuality) 문제를 해결하기 위해 크리티컬 토큰(Critical Token) 개념과 함께 모델 협력 기반 디코딩 방식(Model CDS) 을 제안하는 연구입니다.
🔍 1. 문제의식: 정렬된 모델은 사실성이 떨어진다
- 일반적인 LLM 학습 파이프라인은 사전학습(pretraining) → 정렬(alignment)을 거칩니다.
- 정렬된 모델은 지시 따르기(instruction following) 능력은 향상되지만, 사실성(factuality)은 저하됩니다.
- 또, 일반 사용자들이 주로 사용하는 sampling 기반 디코딩은 무작위성을 유발하여 hallucination 가능성을 높입니다.
🧠 2. 핵심 개념: Critical Tokens
2.1 정의
- 전체 응답 중에서도 사실성에 큰 영향을 주는 소수의 토큰들 (예: 날짜, 숫자, 고유명사).
- 이러한 토큰들은 무작위성에 민감하므로, 정확하게 생성되어야 함.
2.2 생성 방법
- LLaMA 2 모델을 사용하여 Wikipedia 문서 기반으로 질문-응답을 생성 → 다시 모델에게 응답 내에서 critical token을 JSON 형식으로 추출하게 하여 데이터셋 구성.
2.3 분류기 학습
- LLaMA 2 13B를 활용하여 크리티컬 토큰인지 여부(Yes/No)를 예측하는 이진 분류기 학습.
- CT(Current Token), NT(Next Token) 방식 중 CT 방식이 성능 우수.
🔀 3. 제안 방법: Collaborative Decoding Strategy (CDS)
3.1 기본 구조
- Pretrained model과 Aligned model이 협력하여 디코딩.
- CT 분류기의 예측에 따라 어떤 모델이 해당 토큰을 생성할지 결정.
3.2 Model CDS 알고리즘 요약
- Aligned 모델이 다음 토큰
wa 예측.
- CT 분류기가 해당 토큰이 critical인지 판단.
- Yes → Pretrained 모델이 greedy decoding 사용해 토큰 생성.
- No → Aligned 모델의 토큰 유지.
- 모든 prefix 업데이트 후 종료 토큰까지 반복.
🧪 4. 실험 및 결과
4.1 데이터셋
- TriviaQA, NaturalQuestions, FACTSCORE에서 평가.
- 정답이 포함되었는지 기준으로 평가(자유 생성 기준).
4.2 주요 baseline 비교
- Contrastive Decoding (CD), DoLa, ICD, ITI 등과 비교.
- CDS 방식은 외부 지식 없이 학습이 필요 없는 내부 방식.
4.3 결과 요약
| 모델 조합 | TriviaQA | NQ |
|---|
| Aligned Sampling | 66.7 | 35.3 |
| Model CDS (제안) | 72.4 | 36.5 |
| Pretrained Greedy | 76.8 | 38.3 |
- 다양한 모델 사이에서도 Model CDS가 사실성 향상.
- 특히 Pretrained 모델이 더 크거나 정확할수록 CDS 성능도 상승.
📊 5. 분석
5.1 다양성(Diversity)
- Self-BLEU 분석 결과, Model CDS는 생성 다양성에 거의 영향 없음 (sampling 기반 출력과 유사).
5.2 Few-shot 영향
- Pretrained 모델에 들어가는 샷 수 증가 → 약간의 성능 향상.
5.3 정성적 예시
- 기존 정렬 모델이 틀린 정보를 생성하더라도 CDS는 pretrained 모델을 통해 정답을 생성.
- Contrastive Decoding, ITI, DoLa, ICD 등의 hallucination 완화 전략과 비교.
- 이들은 대부분 추가 데이터, 튜닝 필요, CDS는 그에 비해 범용성 높음.
✅ 결론
Model CDS는 사실성이 중요한 응답에서만 pretrained 모델을 활용함으로써 정렬된 모델의 지시 수행 능력과 pretrained 모델의 사실성을 모두 취하면서, 추가 학습이나 외부 지식 없이도 hallucination을 크게 줄일 수 있는 방법임.
⚠️ 한계 및 향후 방향
- Pretrained 모델이 가지고 있는 사실성 수준이 성능의 상한선을 결정.
- 크리티컬 토큰 정의는 좁고 실제 hallucination 판단 기준과 차이가 있음.
- 향후에는 다양한 태스크로 범위를 확장할 수 있음.