논문 "RuleRAG: Rule-Guided Retrieval-Augmented Generation with Language Models for Question Answering"는 기존 RAG (Retrieval-Augmented Generation) 방식의 한계를 극복하기 위해 "규칙 기반의 검색 및 생성"을 도입한 새로운 프레임워크를 제안합니다.
📌 1. 연구 배경 및 문제의식
✔ 기존 RAG의 문제점
- Retrieval(검색): 쿼리와 문서 간 단순 유사도 기반 검색 → 불필요한 문서가 검색되는 문제
- Generation(생성): 검색된 문서들을 어떻게 활용할지 명시적인 가이드가 없음 → LLM이 불확실한 추론을 함
- 🔎 예시: YSSTECH 주가에 대한 질문 → 관련 없는 뉴스만 검색됨
📌 2. 제안 방법: RuleRAG
🔧 구성 요소
- RuleRAG-ICL: 규칙을 인-컨텍스트 학습(in-context learning)으로 활용
- RuleRAG-FT: 검색기와 생성기를 규칙 기반으로 파인튜닝함
🔑 핵심 아이디어
- Rule(규칙): Knowledge Graph로부터 추출된 고품질의 관계 규칙을 사용해 검색 방향과 생성 이유를 유도
- 예) "기업 합병 → 주가 상승" 같은 도메인 지식 기반 규칙
📌 3. 세부 구현
🧠 RuleRAG-ICL (In-context learning)
- 쿼리와 규칙을 합쳐서 검색기와 생성기에 입력
- 각 규칙마다 상위 k개의 문서 검색 후 통합하여 생성에 활용
s(di, q ◦ r) = Ed(di) · Eq(q ◦ r)
INS(q, Rq, Dq) 형태로 생성 모델을 유도
🧪 RuleRAG-FT (Fine-tuning)
- 검색기: Contrastive Learning 기반으로 파인튜닝
- 생성기: query + rules + retrieved docs 기반 instruction-tuning
- 소량 샘플 (ex. 2048개)로 파인튜닝하여 비용 절감
📊 4. 실험: RuleQA 데이터셋
🧱 RuleQA 벤치마크
Knowledge Graph 5종에서 규칙 기반 QA 데이터셋 구성:
- RuleQA-I (ICEWS14)
- RuleQA-Y (YAGO)
- RuleQA-W (WIKI)
- RuleQA-F (FB15k-237)
- RuleQA-N (NELL-995)
| 데이터셋 | 문서 수 | 규칙 수 | 질문 수 |
|---|
| RuleQA-I | 77,508 | 557 | 1,559 |
| RuleQA-Y | 243,633 | 99 | 1,864 |
| RuleQA-W | 584,364 | 78 | 2,065 |
🥇 5. 성능 결과
📈 RuleRAG vs. 기존 기법
| 방법 | R@10 | EM | T-F1 |
|---|
| Standard RAG | 낮음 | 낮음 | 낮음 |
| RuleRAG-ICL | +9.3↑ | +5.9↑ | +3.2↑ |
| RuleRAG-FT | +45.7↑ | +24.2↑ | +15.3↑ |
- EM 기준 성능 최대 2배 이상 향상
- 규칙 없이 학습한 경우(SSFT)보다 성능 하락 → 규칙의 기여도 검증
📚 6. 범용성 분석
- *기타 RAG 모델(CoK 등)**에도 RuleRAG 적용 가능
- 다른 RAG 데이터셋 (ASQA, PopQA, NQ) 에도 규칙 적용 시 성능 향상
- 소량 규칙 학습으로도 미적용 규칙에 일반화 가능
🔮 7. 결론 및 향후 과제
- RuleRAG는 RAG의 검색 및 생성 단계 모두를 규칙 기반으로 정교화하여 성능을 향상시킴
- 다양한 RAG 구조에 적용 가능하며 경량 모델도 고성능을 달성 가능
- 향후 목표:
- 더 다양한 RAG 데이터셋에 규칙 맞춤화
- 복잡한 RAG 프레임워크로 확장
- 사용자 정의 규칙 기반 QA에 활용