PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation

하임·4일 전

RAG

목록 보기
12/20

https://arxiv.org/pdf/2501.11551


🧠 핵심 아이디어

기존 RAG 시스템은 단순한 외부 문서 검색 및 삽입 방식에 의존해, 산업 환경에서 요구되는 전문 지식 기반 문제 해결 능력에 한계가 있었습니다. 이에 따라 PIKE-RAG는 다음을 강조합니다:

  1. *특화된 지식(specialized knowledge)**의 추출과 이해
  2. *합리적 추론(rationale)**의 구성
  3. 과업의 난이도에 따라 문제 유형 분류 및 단계적 시스템 발전 전략

🔍 주요 기여

  1. 질문 유형 분류 및 단계적 RAG 시스템 설계
    • 질문을 4가지 유형으로 분류:
      • Factual: 사실 기반
      • Linkable-reasoning: 연결 및 추론 요구 (bridging, comparative 등 포함)
      • Predictive: 예측 기반
      • Creative: 창의적 문제 해결
    • 이에 기반해 RAG 시스템을 L1~L4 수준으로 정의
  2. PIKE-RAG 프레임워크 제안
    • 파일 파싱, 지식 추출, 저장, 조직, 추론, 과업 분해 모듈로 구성
    • 이 모듈들을 조합/확장해 시스템 단계(L0~L4)에 따라 맞춤 구성 가능
  3. Knowledge Atomizing: 문서 chunk 내부의 세부 지식 요소를 세분화하여 질의 granularity에 맞는 검색 가능
  4. Knowledge-aware Task Decomposition: 질의를 세분화해 순차적 reasoning이 가능한 atomic 질의로 나누고 적절한 검색·추론 루트를 설정
  5. Trainable Decomposer 제안:
    • 다양한 reasoning 경로에 대한 trajectory 수집
    • 상호작용 과정을 통한 학습 기반의 task decomposition 가능

🧱 시스템 구성 단계 (L0 ~ L4)

Level설명
L0다양한 포맷의 전문 문서를 파싱해 이질적인 이중 그래프 기반 지식베이스 생성
L1사실 기반 질의에 대응: 고도화된 chunking, tagging, multi-layer retrieval 도입
L2다중 문서 추론 가능: Knowledge Atomizing, Task Decomposition 활용
L3예측 기반 질의 대응: 구조화/분류/통계 모듈, forecasting reasoning 강화
L4창의적 문제 해결: multi-agent 기반 사고, 다양한 reasoning 시도 지원

📊 실험 결과

  • 벤치마크:
    • Open-domain: HotpotQA, 2WikiMultiHopQA, MuSiQue
    • 도메인 특화: FDA 관련 legal QA 데이터셋
  • 비교 대상:
    • Zero-Shot CoT
    • Naive RAG
    • Self-Ask
    • GraphRAG
  • PIKE-RAG 성능:
    • F1, EM, GPT-4 기반 평가(Accuracy) 모두에서 기존 방법보다 뛰어난 성능
    • 특히 multi-hop과 complex reasoning 문제에서 현저히 향상된 결과

🧩 주요 기술 요소 요약

기술설명
Multi-layer Heterogeneous Graph문서-청크-지식단위 계층적 연결 그래프
Atomic Knowledge Indexing문서 조각마다 응답 가능한 질의 셋 tagging
Multi-Granularity Retrieval문서, 청크, 지식단위 전 범위 검색 가능
Multi-Agent Planning (L4)다양한 reasoning agent 구성으로 창의적 사고 지원

🔗 깃허브 코드


profile
NLP 공부합니당

0개의 댓글