PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation

하임·2026년 1월 9일

RAG

목록 보기

12/20

기존 RAG 시스템은 단순한 외부 문서 검색 및 삽입 방식에 의존해, 산업 환경에서 요구되는 전문 지식 기반 문제 해결 능력에 한계가 있었습니다. 이에 따라 PIKE-RAG는 다음을 강조합니다:

질문 유형 분류 및 단계적 RAG 시스템 설계
- 질문을 4가지 유형으로 분류:
  - Factual: 사실 기반
  - Linkable-reasoning: 연결 및 추론 요구 (bridging, comparative 등 포함)
  - Predictive: 예측 기반
  - Creative: 창의적 문제 해결
- 이에 기반해 RAG 시스템을 L1~L4 수준으로 정의
PIKE-RAG 프레임워크 제안
- 파일 파싱, 지식 추출, 저장, 조직, 추론, 과업 분해 모듈로 구성
- 이 모듈들을 조합/확장해 시스템 단계(L0~L4)에 따라 맞춤 구성 가능
Knowledge Atomizing: 문서 chunk 내부의 세부 지식 요소를 세분화하여 질의 granularity에 맞는 검색 가능
Knowledge-aware Task Decomposition: 질의를 세분화해 순차적 reasoning이 가능한 atomic 질의로 나누고 적절한 검색·추론 루트를 설정
Trainable Decomposer 제안:
- 다양한 reasoning 경로에 대한 trajectory 수집
- 상호작용 과정을 통한 학습 기반의 task decomposition 가능

Level	설명
L0	다양한 포맷의 전문 문서를 파싱해 이질적인 이중 그래프 기반 지식베이스 생성
L1	사실 기반 질의에 대응: 고도화된 chunking, tagging, multi-layer retrieval 도입
L2	다중 문서 추론 가능: Knowledge Atomizing, Task Decomposition 활용
L3	예측 기반 질의 대응: 구조화/분류/통계 모듈, forecasting reasoning 강화
L4	창의적 문제 해결: multi-agent 기반 사고, 다양한 reasoning 시도 지원

벤치마크:
- Open-domain: HotpotQA, 2WikiMultiHopQA, MuSiQue
- 도메인 특화: FDA 관련 legal QA 데이터셋
비교 대상:
- Zero-Shot CoT
- Naive RAG
- Self-Ask
- GraphRAG
PIKE-RAG 성능:
- F1, EM, GPT-4 기반 평가(Accuracy) 모두에서 기존 방법보다 뛰어난 성능
- 특히 multi-hop과 complex reasoning 문제에서 현저히 향상된 결과

기술	설명
Multi-layer Heterogeneous Graph	문서-청크-지식단위 계층적 연결 그래프
Atomic Knowledge Indexing	문서 조각마다 응답 가능한 질의 셋 tagging
Multi-Granularity Retrieval	문서, 청크, 지식단위 전 범위 검색 가능
Multi-Agent Planning (L4)	다양한 reasoning agent 구성으로 창의적 사고 지원

NLP 공부합니당