RuleRAG: Rule-Guided Retrieval-Augmented Generation with Language Models for Question Answering

하임·4일 전

RAG

목록 보기
18/20

논문 "RuleRAG: Rule-Guided Retrieval-Augmented Generation with Language Models for Question Answering"는 기존 RAG (Retrieval-Augmented Generation) 방식의 한계를 극복하기 위해 "규칙 기반의 검색 및 생성"을 도입한 새로운 프레임워크를 제안합니다.


📌 1. 연구 배경 및 문제의식

✔ 기존 RAG의 문제점

  • Retrieval(검색): 쿼리와 문서 간 단순 유사도 기반 검색 → 불필요한 문서가 검색되는 문제
  • Generation(생성): 검색된 문서들을 어떻게 활용할지 명시적인 가이드가 없음 → LLM이 불확실한 추론을 함
  • 🔎 예시: YSSTECH 주가에 대한 질문 → 관련 없는 뉴스만 검색됨

📌 2. 제안 방법: RuleRAG

🔧 구성 요소

  • RuleRAG-ICL: 규칙을 인-컨텍스트 학습(in-context learning)으로 활용
  • RuleRAG-FT: 검색기와 생성기를 규칙 기반으로 파인튜닝

🔑 핵심 아이디어

  • Rule(규칙): Knowledge Graph로부터 추출된 고품질의 관계 규칙을 사용해 검색 방향과 생성 이유를 유도
  • 예) "기업 합병 → 주가 상승" 같은 도메인 지식 기반 규칙

📌 3. 세부 구현

🧠 RuleRAG-ICL (In-context learning)

  • 쿼리와 규칙을 합쳐서 검색기와 생성기에 입력
  • 각 규칙마다 상위 k개의 문서 검색 후 통합하여 생성에 활용
s(di, q ◦ r) = Ed(di) · Eq(q ◦ r)
  • INS(q, Rq, Dq) 형태로 생성 모델을 유도

🧪 RuleRAG-FT (Fine-tuning)

  • 검색기: Contrastive Learning 기반으로 파인튜닝
  • 생성기: query + rules + retrieved docs 기반 instruction-tuning
  • 소량 샘플 (ex. 2048개)로 파인튜닝하여 비용 절감

📊 4. 실험: RuleQA 데이터셋

🧱 RuleQA 벤치마크

Knowledge Graph 5종에서 규칙 기반 QA 데이터셋 구성:

  • RuleQA-I (ICEWS14)
  • RuleQA-Y (YAGO)
  • RuleQA-W (WIKI)
  • RuleQA-F (FB15k-237)
  • RuleQA-N (NELL-995)
데이터셋문서 수규칙 수질문 수
RuleQA-I77,5085571,559
RuleQA-Y243,633991,864
RuleQA-W584,364782,065

🥇 5. 성능 결과

📈 RuleRAG vs. 기존 기법

방법R@10EMT-F1
Standard RAG낮음낮음낮음
RuleRAG-ICL+9.3↑+5.9↑+3.2↑
RuleRAG-FT+45.7↑+24.2↑+15.3↑
  • EM 기준 성능 최대 2배 이상 향상
  • 규칙 없이 학습한 경우(SSFT)보다 성능 하락 → 규칙의 기여도 검증

📚 6. 범용성 분석

  • *기타 RAG 모델(CoK 등)**에도 RuleRAG 적용 가능
  • 다른 RAG 데이터셋 (ASQA, PopQA, NQ) 에도 규칙 적용 시 성능 향상
  • 소량 규칙 학습으로도 미적용 규칙에 일반화 가능

🔮 7. 결론 및 향후 과제

  • RuleRAG는 RAG의 검색 및 생성 단계 모두를 규칙 기반으로 정교화하여 성능을 향상시킴
  • 다양한 RAG 구조에 적용 가능하며 경량 모델도 고성능을 달성 가능
  • 향후 목표:
    • 더 다양한 RAG 데이터셋에 규칙 맞춤화
    • 복잡한 RAG 프레임워크로 확장
    • 사용자 정의 규칙 기반 QA에 활용

profile
NLP 공부합니당

0개의 댓글