[논문리뷰] From Local to Global: A GraphRAG Approach to Query-Focused Summarization

sumin baek·2026년 5월 5일

논문리뷰

목록 보기

5/6

0. Abstract

기존 RAG 는 “데이터셋의 주요 트렌드는 무엇인가?” 와 같은 전역적 질문에는 답변을 잘 못함
그래서 그래프 기반 RAG 제안
LLM 으로 엔티티 지식 그래프 구축하고 계층적 요약본을 사전에 생성하여 map-reduce 방식으로 최종 답변 도출
약 100만 토큰 규모의 데이터셋 테스트(GPT-4 기반) 결과, 기존 RAG 보다 낫다

1. Introduction

기존 기술의 한계
- Vector RAG의 분절성: 쿼리와 유사한 텍스트 조각에만 의존하는 Local Search 방식. 특정 사실 검색엔 좋지만 전체 주제를 묻는 포괄적 질문엔 취약
- QFS(쿼리 중심 요약)의 한계: 문서 요약은 가능하나 일반적인 RAG 수준의 방대한 문서량엔 시스템적 적용 불가
해결책
- 엔티티 지식 그래프 구축: LLM으로 원본 문서에서 핵심 엔티티와 관계를 추출해 지식 그래프 생성
- 커뮤니티 요약 사전 생성: 연결된 엔티티들을 그룹화하고 Bottom-up 방식으로 각 커뮤니티 단위 요약본을 사전 생성해 둠

2. Background

최근 LLM을 사용해서 복잡한 분야에서 인간과 유사한 센스메이킹을 자동화하려는 시도가 이루어지고 있으나 전체 텍스트 말뭉치에 대한 질문에 답하는 것은 여전히 어려움
기존 RAG 방식은 전체 데이터셋에 대한 포괄적인 이해를 요구하는 질문에는 적합하지 않음
이 논문에서는 이러한 한계를 극복하기 위해 Graph RAG 제안

3. Methods

source documents → text chunks
- 긴 텍스트를 청크로 분할
- 트레이드 오프: 청크를 크게하면 LLM 호출 비용이 절감되지만 앞부분 정보 누락 될 수 있다. 반대로 청크를 작게하면 LLM 호출 비용은 증가하지만 정보 보존율 높다.
text chunks → entities & relationships
- LLM 을 활용해서 텍스트 내 핵심 정보 추출, 요약
- 엔티티(인물, 장소, 조직 등), 관계(엔티티 간의 연결성), 주장(관련된 사실 및 이벤트) 등
entities & relationships → knowledge graph
- 추출된 정보들을 하나의 네트워크(그래프)로 병합
- 중복 엔티티는 단일 노드로 통합, 빈출 관계일수록 높은 가중치 부여
konwledge graph → graph communities
- 커뮤니티 감지 알고리즘을 사용하여 그래프를 노트 커뮤니티로 분할
- 이 파이프라인에서는 Leiden 알고리즘 사용
graph communities → community summaries
- Leiden 계층 구조의 각 커뮤니티에 대해 보고서 형식의 요약 생성
- 하위 레벨 커뮤니티 요약은 상위 레벨 커뮤니티 요약을 생성하는데 사용됨
- 상위 레벨 커뮤니티는 모든 요소 요약이 컨텍스트 창의 토큰 제한 내에 맞는 경우, 하위 레벨 커뮤니티와 동일하게 진행하여 커뮤니티 내 모든 요소를 요약
community summaries → community answers → global answer
- 사용자 쿼리가 주어지면 이전 단계에서 생성된 커뮤니티 요약을 사용하여 다단계 프로세스로 최종 답변 생성

4. Analysis

테스트 데이터셋
- 팟캐스트 대본: 기술 리더들의 인터뷰 텍스트 (약 100만 토큰)
- 뉴스 기사: 다양한 카테고리의 10년 치 뉴스 기사 모음 (약 170만 토큰)

비교 대조군
- SS (Vector RAG): 기존의 단순 유사도 기반 검색 방식 (비교의 기준점)
- TS (Text Summarization): 지식 그래프 없이 원본 텍스트 전체를 Map-Reduce 방식으로 무작정 요약하는 방식
- C0 ~ C3 (GraphRAG 계층): 지식 그래프의 커뮤니티 계층별 요약
  - C0 (Root-level): 최상위 계층, 가장 넓은 범위의 포괄적 요약
  - C3 (Low-level): 최하위 계층, 가장 좁고 디테일한 범위의 요약
검증 방식
- 실험 1 (LLM 평가자): LLM이 4가지 기준(포괄성, 다양성, 역량 강화, 직접성)을 바탕으로 두 시스템의 답변을 1:1로 맞비교(Win-rate 측정)
- 실험 2 (팩트 추출 교차 검증): LLM의 주관적 평가를 보완하기 위해 생성된 답변 내에서 검증 가능한 사실이 몇 개 추출되는지, 그 사실들이 얼마나 다양한 군집을 이루는지 통계적으로 분석

5. Results

실험 1 결과 (LLM 기반 상대 평가)

전반적으로 GraphRAG는 특히 "Comprehensiveness"(포괄성) 및 "Diversity"(다양성) 측면에서 기존의 벡터 RAG(SS)보다 "Global sensemaking"(전역적 상황 인식) 쿼리에 대해 월등히 우수한 성능을 보였다.
실험 2 결과 (추출된 사실/주장 기반 교차 검증)
- 조건별 및 데이터셋 유형별 보고된 추출된 주장의 평균 수
- 조건 및 데이터셋 유형별 보고된 다양한 거리 임계값에 따른 평균 클러스터 수

6. Discussion, 7. Conclusion

평가의 한계
- 약 100만 토큰 범위의 두 말뭉치에 대한 특정 유형의 질문만 평가
- 다양한 질문 유형, 데이터 유형, 데이터셋 크기에 따른 성능 변화 연구 필요
- 센스메이킹 질문과 목표 메트릭(포괄성, 다양성, 권한 부여, 직접성)에 대한 최종 사용자 검증 필요
- SelfCheckGPT와 같은 도구를 사용한 hallucination 비율 비교 필요
그래프 인덱스 구축의 트레이드오프
- Graph RAG가 다른 방법들보다 일관되게 우수한 성능 보임
- 그래프를 사용하지 않는 원본 텍스트 전역 요약 접근법도 경쟁력 있는 성능 보여줌
- 실제 적용 시 고려할 요소: 계산 예산, 데이터셋당 예상 쿼리 횟수, 그래프 인덱스의 부가 가치(일반 커뮤니티 요약, 다른 그래프 관련 RAG 접근법 활용 등)
향후 연구 방향
- 사용자 쿼리와 그래프 주석 간 임베딩 기반 매칭을 통한 지역적 RAG 접근법 개발
- 커뮤니티 보고에 대한 임베딩 기반 매칭과, 맵리듀스 요약을 결합한 하이브리드 RAG 방식 개발
- 커뮤니티 계층의 더 많은 레벨에 걸친 "롤업" 작업 확장
- 상위 레벨 커뮤니티 요약 정보를 따라가는 탐색적 "드릴 다운" 메커니즘 구현

sumin baek

낮에는 AI 엔지니어로, 밤에는 대학원생으로 인공지능을 탐구하며 기록하는 공간입니다.

[논문리뷰] From Local to Global: A GraphRAG Approach to Query-Focused Summarization

논문리뷰

0. Abstract

1. Introduction

2. Background

3. Methods

4. Analysis

5. Results

6. Discussion, 7. Conclusion

[논문리뷰] Generative Adversarial Networks (GAN) - Goodfellow et al. (2014)

[논문리뷰] Mixtral of Experts (2024)

0개의 댓글