DIRAS: Efficient LLM Annotation of Document Relevance in Retrieval Augmented Generation

하임·4일 전

RAG

목록 보기
11/20

https://arxiv.org/pdf/2406.14162


📌 논문 제목

DIRAS: Efficient LLM Annotation of Document Relevance for Retrieval-Augmented Generation

📚 배경 및 문제의식

  • *Retrieval-Augmented Generation (RAG)**은 특정 도메인 지식 기반 질문에 응답하기 위해 널리 사용되고 있으나, 다음과 같은 문제점을 지적합니다:
  • IR Recall 문제: RAG 시스템은 정보 회수(recall)를 제대로 평가하지 못하여 통합적 분석이 필요한 질문에 대해 불완전한 응답을 줄 수 있음
  • Relevance Definition의 부족: 도메인별 문서의 ‘부분적으로 관련 있는 정보’를 평가할 수 있는 정의와 정량화 수단이 부족함
  • 사람 혹은 GPT-4를 이용한 어노테이션의 비용 문제
  • Annotation Selection Bias: 일부 (query, document) 쌍만 어노테이션되어 IR 성능 측정이 왜곡됨

🧠 DIRAS의 핵심 아이디어

  • *DIRAS (Domain-specific Information Retrieval Annotation with Scalability)**는 다음의 핵심 요소로 구성됩니다:
  1. 수작업 없이도 어노테이션 가능:
    • 오픈소스 LLM(8B 이하)을 파인튜닝하여 도메인 특화된 문서-질문 쌍에 대해 정확하고 정량화된 relevance score를 산출
  2. Nuanced (정밀한) Relevance 판단:
    • 단순 문장 유사도가 아닌 도메인별 relevance 정의에 따라 부분적인 관련성까지 고려 가능
  3. Pointwise Annotation 방식 사용:
    • (Query, Document) 단위로 어노테이션 수행하여 효율성과 확장성 확보
  4. Calibration된 Score 출력:
    • 단순 Yes/No 판단뿐 아니라 [0.0 ~ 1.0] 점수로 확신 수준까지 출력하여 IR 재정렬, threshold 조정 등 응용 가능

⚙️ DIRAS 파이프라인 구조

  1. (Query, Document) 쌍 샘플링:
    • Dense retriever로 top-k와 non-top-k 문서를 균형 있게 추출
  2. Relevance 정의 생성:
    • 질문마다 GPT-4를 통해 해당 질문에 대한 관련성 정의 자동 생성
  3. Teacher LLM으로 학습 데이터 생성:
    • GPT-4 기반 teacher가 reasoning + score 제공
  4. Student LLM 파인튜닝:
    • 다양한 오픈소스 LLM(LLaMA-3, Gemma, Phi)을 fine-tune 하여 경량화된 어노테이터 생성

📊 성능 평가

  • 벤치마크 데이터셋: ChatReportRetrieve, ClimRetrieve, ALCE, RAG-Bench 등
  • 평가지표:
    • Binary Relevance (F1)
    • Calibration (ECE, Brier, AUROC)
    • Ranking (nDCG, MAP)
    • Uncertainty vs Confidence

🔥 LLaMA3-8B (Tok 방식) 모델이 GPT-4 수준의 성능을 기록 (예: ChatReportRetrieve 기준 F1: 82.11, AUROC: 91.35)


🧪 실제 응용 사례

  1. ClimRetrieve 재어노테이션:
    • 기존 사람이 놓친 문서까지 학습하여 Annotation Selection Bias 보정
    • Improved Relevance Definition 사용 시 nDCG 및 MAP 향상
  2. QA 데이터셋 (ELI5, ASQA, QAMPARI, RAG-Bench) 적용:
    • LLaMA3-Tok 모델이 GPT-4보다 높은 IR 성능
    • 95% 이상 신뢰도에서 높은 정답률 확인
  3. Top-k 대신 Threshold 기반 RAG 제안:
    • 문서 relevance score 기반 동적 retrieval 수행이 더 효과적임

✅ 기여 요약

  • 도메인 특화 Relevance 정의를 반영하는 대규모 자동 어노테이션 파이프라인 제안
  • 작은 LLM으로도 GPT-4 수준의 정밀한 어노테이션 가능
  • IR Recall, Partial Relevance, Annotation Bias 등 기존 문제들 해결 가능
  • 다양한 도메인 및 벤치마크에서 효과적으로 작동함을 실험으로 검증

📥 깃허브 링크

https://github.com/EdisonNi-hku/DIRAS


profile
NLP 공부합니당

0개의 댓글