
현재의 RAG 시스템은 대규모 데이터셋에서 특정 정보를 검색하는 데 최적화된 Vector RAG 방식에 의존한다. 그러나 "데이터셋의 주요 테마는 무엇인가?"와 같은 전체 말뭉치에 대한 Global sensemaking 질문에는 대응하지 못하는 한계가 있다. 기존의 QFS 방식은 RAG 시스템이 다루는 방대한 텍스트 규모를 처리하기 어렵다. 이 논문은 GraphRAG를 제안하여, 지식 그래프 구축과 커뮤니티 요약 기술을 결합함으로써 대규모 텍스트 데이터셋에 대한 질문 대응 능력을 확장하고 Global sensemaking 질문에 효과적인 답변을 제공한다.

GraphRAG의 파이프라인은 크게 Indexing Time과 Query Time 두 단계로 구성된다.
Graph Index 구축 (Indexing Time):
질문 대응 (Query Time):
연구진은 약 100만 토큰 규모의 Podcast transcripts와 News articles 데이터셋을 활용하여 실험을 진행했다.




GraphRAG는 지식 그래프의 모듈성(modularity)을 활용하여 대규모 데이터셋에 대한 Global sensemaking 기능을 성공적으로 구현했다. 이 방식은 기존의 Vector RAG가 놓치기 쉬운 전체적인 테마와 연결성을 포착하는 데 탁월하며, 대규모 텍스트 말뭉치에 대한 효율적인 질문-답변 시스템 구축을 위한 새로운 표준을 제시한다. 향후 연구에서는 하이브리드 RAG 기법 결합 및 데이터 도메인 확장 등을 통해 모델의 정밀도를 지속적으로 향상시킬 예정이다.