https://arxiv.org/pdf/2406.14162
📌 논문 제목
DIRAS: Efficient LLM Annotation of Document Relevance for Retrieval-Augmented Generation
📚 배경 및 문제의식
- *Retrieval-Augmented Generation (RAG)**은 특정 도메인 지식 기반 질문에 응답하기 위해 널리 사용되고 있으나, 다음과 같은 문제점을 지적합니다:
- IR Recall 문제: RAG 시스템은 정보 회수(recall)를 제대로 평가하지 못하여 통합적 분석이 필요한 질문에 대해 불완전한 응답을 줄 수 있음
- Relevance Definition의 부족: 도메인별 문서의 ‘부분적으로 관련 있는 정보’를 평가할 수 있는 정의와 정량화 수단이 부족함
- 사람 혹은 GPT-4를 이용한 어노테이션의 비용 문제
- Annotation Selection Bias: 일부 (query, document) 쌍만 어노테이션되어 IR 성능 측정이 왜곡됨
🧠 DIRAS의 핵심 아이디어
- *DIRAS (Domain-specific Information Retrieval Annotation with Scalability)**는 다음의 핵심 요소로 구성됩니다:
- 수작업 없이도 어노테이션 가능:
- 오픈소스 LLM(8B 이하)을 파인튜닝하여 도메인 특화된 문서-질문 쌍에 대해 정확하고 정량화된 relevance score를 산출
- Nuanced (정밀한) Relevance 판단:
- 단순 문장 유사도가 아닌 도메인별 relevance 정의에 따라 부분적인 관련성까지 고려 가능
- Pointwise Annotation 방식 사용:
- (Query, Document) 단위로 어노테이션 수행하여 효율성과 확장성 확보
- Calibration된 Score 출력:
- 단순 Yes/No 판단뿐 아니라 [0.0 ~ 1.0] 점수로 확신 수준까지 출력하여 IR 재정렬, threshold 조정 등 응용 가능
⚙️ DIRAS 파이프라인 구조
- (Query, Document) 쌍 샘플링:
- Dense retriever로 top-k와 non-top-k 문서를 균형 있게 추출
- Relevance 정의 생성:
- 질문마다 GPT-4를 통해 해당 질문에 대한 관련성 정의 자동 생성
- Teacher LLM으로 학습 데이터 생성:
- GPT-4 기반 teacher가 reasoning + score 제공
- Student LLM 파인튜닝:
- 다양한 오픈소스 LLM(LLaMA-3, Gemma, Phi)을 fine-tune 하여 경량화된 어노테이터 생성
📊 성능 평가
- 벤치마크 데이터셋: ChatReportRetrieve, ClimRetrieve, ALCE, RAG-Bench 등
- 평가지표:
- Binary Relevance (F1)
- Calibration (ECE, Brier, AUROC)
- Ranking (nDCG, MAP)
- Uncertainty vs Confidence
🔥 LLaMA3-8B (Tok 방식) 모델이 GPT-4 수준의 성능을 기록 (예: ChatReportRetrieve 기준 F1: 82.11, AUROC: 91.35)
🧪 실제 응용 사례
- ClimRetrieve 재어노테이션:
- 기존 사람이 놓친 문서까지 학습하여 Annotation Selection Bias 보정
- Improved Relevance Definition 사용 시 nDCG 및 MAP 향상
- QA 데이터셋 (ELI5, ASQA, QAMPARI, RAG-Bench) 적용:
- LLaMA3-Tok 모델이 GPT-4보다 높은 IR 성능
- 95% 이상 신뢰도에서 높은 정답률 확인
- Top-k 대신 Threshold 기반 RAG 제안:
- 문서 relevance score 기반 동적 retrieval 수행이 더 효과적임
✅ 기여 요약
- 도메인 특화 Relevance 정의를 반영하는 대규모 자동 어노테이션 파이프라인 제안
- 작은 LLM으로도 GPT-4 수준의 정밀한 어노테이션 가능
- IR Recall, Partial Relevance, Annotation Bias 등 기존 문제들 해결 가능
- 다양한 도메인 및 벤치마크에서 효과적으로 작동함을 실험으로 검증
📥 깃허브 링크
https://github.com/EdisonNi-hku/DIRAS