[논문리뷰] From Local to Global: A GraphRAG Approach to Query-Focused Summarization

sumin baek·2026년 5월 5일

논문리뷰

목록 보기
5/6

0. Abstract

  • 기존 RAG 는 “데이터셋의 주요 트렌드는 무엇인가?” 와 같은 전역적 질문에는 답변을 잘 못함
  • 그래서 그래프 기반 RAG 제안
  • LLM 으로 엔티티 지식 그래프 구축하고 계층적 요약본을 사전에 생성하여 map-reduce 방식으로 최종 답변 도출
  • 약 100만 토큰 규모의 데이터셋 테스트(GPT-4 기반) 결과, 기존 RAG 보다 낫다

1. Introduction

  • 기존 기술의 한계
    • Vector RAG의 분절성: 쿼리와 유사한 텍스트 조각에만 의존하는 Local Search 방식. 특정 사실 검색엔 좋지만 전체 주제를 묻는 포괄적 질문엔 취약
    • QFS(쿼리 중심 요약)의 한계: 문서 요약은 가능하나 일반적인 RAG 수준의 방대한 문서량엔 시스템적 적용 불가
  • 해결책
    • 엔티티 지식 그래프 구축: LLM으로 원본 문서에서 핵심 엔티티와 관계를 추출해 지식 그래프 생성
    • 커뮤니티 요약 사전 생성: 연결된 엔티티들을 그룹화하고 Bottom-up 방식으로 각 커뮤니티 단위 요약본을 사전 생성해 둠

2. Background

  • 최근 LLM을 사용해서 복잡한 분야에서 인간과 유사한 센스메이킹을 자동화하려는 시도가 이루어지고 있으나 전체 텍스트 말뭉치에 대한 질문에 답하는 것은 여전히 어려움
  • 기존 RAG 방식은 전체 데이터셋에 대한 포괄적인 이해를 요구하는 질문에는 적합하지 않음
  • 이 논문에서는 이러한 한계를 극복하기 위해 Graph RAG 제안 스크린샷 2026-05-05 21.02.23.png

3. Methods

  1. source documents → text chunks
    • 긴 텍스트를 청크로 분할
    • 트레이드 오프: 청크를 크게하면 LLM 호출 비용이 절감되지만 앞부분 정보 누락 될 수 있다. 반대로 청크를 작게하면 LLM 호출 비용은 증가하지만 정보 보존율 높다.
  2. text chunks → entities & relationships
    • LLM 을 활용해서 텍스트 내 핵심 정보 추출, 요약
    • 엔티티(인물, 장소, 조직 등), 관계(엔티티 간의 연결성), 주장(관련된 사실 및 이벤트) 등
  3. entities & relationships → knowledge graph
    • 추출된 정보들을 하나의 네트워크(그래프)로 병합
    • 중복 엔티티는 단일 노드로 통합, 빈출 관계일수록 높은 가중치 부여
  4. konwledge graph → graph communities
    • 커뮤니티 감지 알고리즘을 사용하여 그래프를 노트 커뮤니티로 분할
    • 이 파이프라인에서는 Leiden 알고리즘 사용
  5. graph communities → community summaries
    • Leiden 계층 구조의 각 커뮤니티에 대해 보고서 형식의 요약 생성
    • 하위 레벨 커뮤니티 요약은 상위 레벨 커뮤니티 요약을 생성하는데 사용됨
    • 상위 레벨 커뮤니티는 모든 요소 요약이 컨텍스트 창의 토큰 제한 내에 맞는 경우, 하위 레벨 커뮤니티와 동일하게 진행하여 커뮤니티 내 모든 요소를 요약
  6. community summaries → community answers → global answer
    • 사용자 쿼리가 주어지면 이전 단계에서 생성된 커뮤니티 요약을 사용하여 다단계 프로세스로 최종 답변 생성

4. Analysis

  • 테스트 데이터셋
    • 팟캐스트 대본: 기술 리더들의 인터뷰 텍스트 (약 100만 토큰)
    • 뉴스 기사: 다양한 카테고리의 10년 치 뉴스 기사 모음 (약 170만 토큰) 스크린샷 2026-05-05 21.36.34.png
  • 비교 대조군

    스크린샷 2026-05-05 21.36.57.png

    • SS (Vector RAG): 기존의 단순 유사도 기반 검색 방식 (비교의 기준점)
    • TS (Text Summarization): 지식 그래프 없이 원본 텍스트 전체를 Map-Reduce 방식으로 무작정 요약하는 방식
    • C0 ~ C3 (GraphRAG 계층): 지식 그래프의 커뮤니티 계층별 요약
      • C0 (Root-level): 최상위 계층, 가장 넓은 범위의 포괄적 요약
      • C3 (Low-level): 최하위 계층, 가장 좁고 디테일한 범위의 요약
  • 검증 방식

    • 실험 1 (LLM 평가자): LLM이 4가지 기준(포괄성, 다양성, 역량 강화, 직접성)을 바탕으로 두 시스템의 답변을 1:1로 맞비교(Win-rate 측정)
    • 실험 2 (팩트 추출 교차 검증): LLM의 주관적 평가를 보완하기 위해 생성된 답변 내에서 검증 가능한 사실이 몇 개 추출되는지, 그 사실들이 얼마나 다양한 군집을 이루는지 통계적으로 분석

5. Results

  1. 실험 1 결과 (LLM 기반 상대 평가)

    스크린샷 2026-05-05 21.48.18.png

    전반적으로 GraphRAG는 특히 "Comprehensiveness"(포괄성) 및 "Diversity"(다양성) 측면에서 기존의 벡터 RAG(SS)보다 "Global sensemaking"(전역적 상황 인식) 쿼리에 대해 월등히 우수한 성능을 보였다.

  2. 실험 2 결과 (추출된 사실/주장 기반 교차 검증)

    스크린샷 2026-05-05 21.50.47.png

    • 조건별 및 데이터셋 유형별 보고된 추출된 주장의 평균 수

    스크린샷 2026-05-05 21.51.07.png

    • 조건 및 데이터셋 유형별 보고된 다양한 거리 임계값에 따른 평균 클러스터 수

6. Discussion, 7. Conclusion

  • 평가의 한계

    • 약 100만 토큰 범위의 두 말뭉치에 대한 특정 유형의 질문만 평가
    • 다양한 질문 유형, 데이터 유형, 데이터셋 크기에 따른 성능 변화 연구 필요
    • 센스메이킹 질문과 목표 메트릭(포괄성, 다양성, 권한 부여, 직접성)에 대한 최종 사용자 검증 필요
    • SelfCheckGPT와 같은 도구를 사용한 hallucination 비율 비교 필요
  • 그래프 인덱스 구축의 트레이드오프

    • Graph RAG가 다른 방법들보다 일관되게 우수한 성능 보임
    • 그래프를 사용하지 않는 원본 텍스트 전역 요약 접근법도 경쟁력 있는 성능 보여줌
    • 실제 적용 시 고려할 요소: 계산 예산, 데이터셋당 예상 쿼리 횟수, 그래프 인덱스의 부가 가치(일반 커뮤니티 요약, 다른 그래프 관련 RAG 접근법 활용 등)
  • 향후 연구 방향

    • 사용자 쿼리와 그래프 주석 간 임베딩 기반 매칭을 통한 지역적 RAG 접근법 개발
    • 커뮤니티 보고에 대한 임베딩 기반 매칭과, 맵리듀스 요약을 결합한 하이브리드 RAG 방식 개발
    • 커뮤니티 계층의 더 많은 레벨에 걸친 "롤업" 작업 확장
    • 상위 레벨 커뮤니티 요약 정보를 따라가는 탐색적 "드릴 다운" 메커니즘 구현
profile
낮에는 AI 엔지니어로, 밤에는 대학원생으로 인공지능을 탐구하며 기록하는 공간입니다.

0개의 댓글