ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

하임·4일 전

RAG

목록 보기
8/20

https://export.arxiv.org/pdf/2502.18017

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents


논문 개요 및 주요 내용

1. 연구 배경

Retrieval-Augmented Generation (RAG)은 대형 언어 모델(LLM)의 성능을 향상시키기 위해 외부 지식을 활용하는 기술이다. 기존의 RAG 방식은 텍스트 중심의 검색 및 생성 방식에 초점을 맞추고 있었으며, 시각적 요소(차트, 표, 도표 등)가 포함된 문서에서의 정보 검색과 생성에는 한계가 있었다.

이에 따라 연구진은 ViDoSeek이라는 새로운 데이터셋을 도입하여 시각적 요소가 포함된 문서(Visually Rich Documents, VRD)에서 RAG 성능을 평가하고자 했다. ViDoSeek 데이터셋은 전통적인 시각적 질의응답(Visual Question Answering, VQA) 데이터셋과 달리, 질문에 대한 고유한 답변과 참조 페이지를 포함하여 RAG 모델의 검색 및 생성 성능을 별도로 평가할 수 있도록 설계되었다.


2. 기존 접근법의 한계

기존의 RAG 방식은 다음과 같은 두 가지 주요 한계를 가지고 있다.

  1. 비효율적인 검색 방식
    • 기존의 OCR(광학 문자 인식) 기반 검색 방법은 텍스트 중심으로 작동하며, 시각적 요소(차트, 테이블 등)를 제대로 활용하지 못한다.
    • 최근 비전 기반 검색 기법이 발전하였지만, 텍스트와 비전 데이터를 효과적으로 통합하는 방법이 부족하다.
  2. 생성 단계에서의 추론 능력 부족
    • 기존 연구들은 검색된 문서의 길이를 늘리는 방식으로 추론 성능을 확장하려 했으나, 이는 단순히 정보량을 증가시키는 것에 불과하다.
    • 보다 효과적인 추론 능력을 활성화하려면, 검색된 정보를 체계적으로 처리할 수 있는 새로운 생성 방식이 필요하다.

3. ViDoRAG 프레임워크

ViDoRAG는 다중 에이전트(Multi-Agent) 기반의 RAG 프레임워크로, 시각적 문서에서의 복잡한 추론을 수행하는 새로운 접근법을 제안한다.

3.1 다중 모달 하이브리드 검색 (Multi-Modal Hybrid Retrieval)

  • 가우시안 혼합 모델(GMM, Gaussian Mixture Model) 기반 검색 최적화
    • 기존 RAG 시스템에서는 상위 K개(top-K) 문서를 고정된 값으로 설정하여 검색했지만, ViDoRAG는 GMM을 활용하여 질의에 따라 동적으로 K값을 조정하는 방식을 사용한다.
    • 이는 검색된 문서의 노이즈를 줄이고, 모델이 보다 정밀한 정보에 집중할 수 있도록 한다.
  • 텍스트 및 비전 데이터의 결합
    • OCR을 활용한 텍스트 검색과 비전 기반 검색을 결합하여, 텍스트 및 시각적 요소를 효과적으로 조합하는 하이브리드 검색 방식을 도입했다.

3.2 다중 에이전트 기반 생성 (Multi-Agent Generation with Iterative Reasoning)

ViDoRAG는 세 가지 역할을 수행하는 에이전트(Agent)를 활용하여 점진적으로 추론을 강화한다.

  1. Seeker Agent (탐색 에이전트)
    • 전체 문서에서 초기 탐색을 수행하며, 질의와 관련된 문서를 빠르게 선별한다.
    • 탐색 후, Inspector Agent에게 정보를 제공한다.
  2. Inspector Agent (검토 에이전트)
    • Seeker Agent가 제공한 정보를 세밀하게 분석하고, 추가 검색이 필요한지 판단한다.
    • 필요한 경우, 추가 정보를 요청하거나 부분적인 답변을 생성한다.
  3. Answer Agent (최종 답변 에이전트)
    • 최종적으로 일관된 답변을 생성하고, Inspector Agent가 제안한 정보가 올바른지 검증한다.

이러한 단계적(Coarse-to-Fine) 접근 방식을 통해, 기존 RAG 모델보다 더 강력한 추론 능력을 발휘할 수 있도록 한다.


4. 실험 및 성능 평가

4.1 데이터셋 (ViDoSeek)

  • 기존의 VQA 데이터셋과 달리, 질문에 대해 고유한 정답과 참조 페이지가 존재하는 형태로 구성되었다.
  • 1.2k개의 질문이 포함되어 있으며, 텍스트, 차트, 표, 레이아웃 등 다양한 정보 유형을 포함한다.
  • 단순한 단일 단계 추론(Single-Hop)뿐만 아니라, 다단계 추론(Multi-Hop) 질문도 포함하여 RAG 시스템의 추론 능력을 평가할 수 있도록 했다.

4.2 비교 실험

ViDoRAG는 기존 RAG 방법론과 비교하여 성능을 평가했다.

  • 비교 대상:
    • TextRAG: 기존의 텍스트 기반 검색 및 생성 방식
    • VisualRAG: 비전 기반 검색 방식
    • ViDoRAG (본 연구 방법)
  • 주요 평가 지표:
    • 정확도(Accuracy)
    • 검색 성능(Recall@K)
    • 추론 성능(F1-score, MRR)

4.2.1 생성 성능 비교

방법단일 단계 (Single-hop)다단계 (Multi-hop)텍스트차트레이아웃전체 평균
TextRAG42.645.767.641.825.445.943.9
VisualRAG61.860.582.548.552.263.961.2
ViDoRAG (본 연구)73.368.585.165.656.174.771.2
  • ViDoRAG는 기존 방법보다 10% 이상 정확도가 향상됨을 확인했다.

4.2.2 검색 성능 비교

방법Recall@1Recall@3Recall@5MRR@5
BM2555.277.484.566.5
BGE-M360.279.387.670.5
ViDoRAG (본 연구)75.489.795.183.3
  • ViDoRAG의 하이브리드 검색 전략이 기존 OCR 기반 검색 방식보다 훨씬 우수함을 보였다.

5. 결론 및 한계점

5.1 결론

ViDoRAG는 다중 에이전트 기반 RAG 모델로, 기존 RAG 모델의 한계를 보완하고 시각적 문서에서의 복잡한 추론 능력을 개선하였다. 실험 결과, 기존 방법보다 10% 이상 성능이 향상되었으며, 대규모 문서에서 보다 정밀한 검색과 생성이 가능함을 입증했다.

5.2 한계점

  1. 질문 구성의 편향 가능성
    • ViDoSeek 데이터셋의 질문이 연구진에 의해 수동으로 생성되었기 때문에, 특정 유형의 질문에 편향이 있을 수 있다.
  2. 계산 비용 문제
    • 다중 에이전트 방식을 채택하여 추가적인 계산 비용이 발생한다.
  3. 모델의 환각(Hallucination) 문제
    • 일부 생성된 답변이 검색된 정보와 정확히 일치하지 않을 수 있다.

5.3 향후 연구 방향

  • 추론 효율성 최적화를 통한 계산 비용 절감
  • 다양한 도메인 적용 (교육, 금융, 법률 등)
  • 환각 문제 해결을 위한 정밀한 정답 검증 기법 도입

요약

ViDoRAG는 시각적 문서를 위한 다중 에이전트 기반 RAG 프레임워크로, 기존 RAG 방식의 한계를 극복하고 보다 정밀한 검색 및 생성 능력을 제공한다. 실험 결과, 기존 방식보다 10% 이상의 성능 향상을 기록하였으며, 특히 시각적 문서에서의 복잡한 다단계 추론 문제를 해결하는 데 강력한 성능을 보였다.

profile
NLP 공부합니당

0개의 댓글