Collaborative Decoding of Critical Tokens for Boosting Factuality of LLMs

하임·2026년 1월 9일

Routing

목록 보기
25/44

2402.17982

논문 "Collaborative Decoding of Critical Tokens for Boosting Factuality of LLMs"사실성(factuality) 문제를 해결하기 위해 크리티컬 토큰(Critical Token) 개념과 함께 모델 협력 기반 디코딩 방식(Model CDS) 을 제안하는 연구입니다.


🔍 1. 문제의식: 정렬된 모델은 사실성이 떨어진다

  • 일반적인 LLM 학습 파이프라인은 사전학습(pretraining) → 정렬(alignment)을 거칩니다.
  • 정렬된 모델은 지시 따르기(instruction following) 능력은 향상되지만, 사실성(factuality)은 저하됩니다.
  • 또, 일반 사용자들이 주로 사용하는 sampling 기반 디코딩은 무작위성을 유발하여 hallucination 가능성을 높입니다.

🧠 2. 핵심 개념: Critical Tokens

2.1 정의

  • 전체 응답 중에서도 사실성에 큰 영향을 주는 소수의 토큰들 (예: 날짜, 숫자, 고유명사).
  • 이러한 토큰들은 무작위성에 민감하므로, 정확하게 생성되어야 함.

2.2 생성 방법

  • LLaMA 2 모델을 사용하여 Wikipedia 문서 기반으로 질문-응답을 생성 → 다시 모델에게 응답 내에서 critical token을 JSON 형식으로 추출하게 하여 데이터셋 구성.

2.3 분류기 학습

  • LLaMA 2 13B를 활용하여 크리티컬 토큰인지 여부(Yes/No)를 예측하는 이진 분류기 학습.
  • CT(Current Token), NT(Next Token) 방식 중 CT 방식이 성능 우수.

🔀 3. 제안 방법: Collaborative Decoding Strategy (CDS)

3.1 기본 구조

  • Pretrained modelAligned model이 협력하여 디코딩.
  • CT 분류기의 예측에 따라 어떤 모델이 해당 토큰을 생성할지 결정.

3.2 Model CDS 알고리즘 요약

  1. Aligned 모델이 다음 토큰 wa 예측.
  2. CT 분류기가 해당 토큰이 critical인지 판단.
  3. Yes → Pretrained 모델이 greedy decoding 사용해 토큰 생성.
  4. No → Aligned 모델의 토큰 유지.
  5. 모든 prefix 업데이트 후 종료 토큰까지 반복.

🧪 4. 실험 및 결과

4.1 데이터셋

  • TriviaQA, NaturalQuestions, FACTSCORE에서 평가.
  • 정답이 포함되었는지 기준으로 평가(자유 생성 기준).

4.2 주요 baseline 비교

  • Contrastive Decoding (CD), DoLa, ICD, ITI 등과 비교.
  • CDS 방식은 외부 지식 없이 학습이 필요 없는 내부 방식.

4.3 결과 요약

모델 조합TriviaQANQ
Aligned Sampling66.735.3
Model CDS (제안)72.436.5
Pretrained Greedy76.838.3
  • 다양한 모델 사이에서도 Model CDS가 사실성 향상.
  • 특히 Pretrained 모델이 더 크거나 정확할수록 CDS 성능도 상승.

📊 5. 분석

5.1 다양성(Diversity)

  • Self-BLEU 분석 결과, Model CDS는 생성 다양성에 거의 영향 없음 (sampling 기반 출력과 유사).

5.2 Few-shot 영향

  • Pretrained 모델에 들어가는 샷 수 증가 → 약간의 성능 향상.

5.3 정성적 예시

  • 기존 정렬 모델이 틀린 정보를 생성하더라도 CDS는 pretrained 모델을 통해 정답을 생성.

  • Contrastive Decoding, ITI, DoLa, ICD 등의 hallucination 완화 전략과 비교.
  • 이들은 대부분 추가 데이터, 튜닝 필요, CDS는 그에 비해 범용성 높음.

✅ 결론

Model CDS는 사실성이 중요한 응답에서만 pretrained 모델을 활용함으로써 정렬된 모델의 지시 수행 능력과 pretrained 모델의 사실성을 모두 취하면서, 추가 학습이나 외부 지식 없이도 hallucination을 크게 줄일 수 있는 방법임.


⚠️ 한계 및 향후 방향

  • Pretrained 모델이 가지고 있는 사실성 수준이 성능의 상한선을 결정.
  • 크리티컬 토큰 정의는 좁고 실제 hallucination 판단 기준과 차이가 있음.
  • 향후에는 다양한 태스크로 범위를 확장할 수 있음.

profile
NLP 공부합니당

0개의 댓글