

LLM은 외부 지식을 검색해 활용하는 RAG (Retrieval-Augmented Generation) 시스템을 통해 hallucination을 완화하고 응답 품질을 향상시킨다. 그러나 기존 RAG 시스템은 여러 개의 evidence를 검색하고 종합적으로 추론해야 하는 multi-hop queries에 적합하지 않으며, 이러한 multi-hop 쿼리에 특화된 RAG benchmark dataset도 부족한 상황이다.
본 논문은 이러한 공백을 해소하기 위해 MultiHop-RAG라는 새로운 benchmark dataset을 제안한다. 이 데이터셋은 뉴스 기사 기반 knowledge base, multi-hop queries, 정답, 그리고 관련 supporting evidence로 구성된다.
논문은 데이터셋 구축 절차를 상세히 설명하고, 두 가지 실험을 통해 MultiHop-RAG의 benchmark로서의 유용성을 검증한다.
두 실험 모두 기존 RAG 방식이 multi-hop query 검색 및 응답 생성에서 충분히 만족스럽지 못한 성능을 보임을 보여준다.
RAG 애플리케이션은 외부 corpus (D)를 knowledge base로 사용한다. 각 문서 (d_i \in D)는 chunk 단위로 분할되고, embedding model을 통해 vector representation으로 변환되어 vector database에 저장된다.
사용자 query (q)가 주어지면, 시스템은 query와 가장 유사한 top-K chunks를 검색하여 retrieval set (R_q = {r_1, r_2, ..., r_K})를 구성한다.
이 retrieved chunks는 query 및 optional prompt와 함께 LLM에 입력되어 최종 답변을 생성한다.
[
LLM(q, R_q, prompt) \rightarrow answer
]
Multi-hop query는 답변을 생성하기 위해 여러 개의 supporting evidence를 검색하고 종합적으로 추론해야 하는 질의이다.
즉, multi-hop query의 경우 retrieval set (R_q)에 포함된 여러 chunk들을 통합적으로 reasoning해야 최종 답을 도출할 수 있다.
예시:
"Google, Apple, Nvidia 중 2023년 3분기 보고서에서 가장 높은 profit margin을 기록한 회사는 어디인가?"
이 경우 세 회사의 보고서를 각각 검색하고, 여러 evidence를 비교 및 종합 추론해야 한다.
논문은 실제 RAG 시스템에서 자주 등장하는 multi-hop query를 네 가지 유형으로 분류한다.
Multi-hop RAG 시스템 평가는 두 축으로 나뉜다.
retrieval set의 품질은 최종 generation 품질을 결정한다. 각 query에 대해 ground-truth evidence와 비교하여 평가한다 (null query 제외).
사용 지표:
LLM이 생성한 답변을 ground-truth answer와 비교하여 reasoning 능력을 평가한다.

각 기사에서 fact 또는 opinion 문장을 추출하여 supporting evidence로 사용한다.
다른 기사와 overlapping keyword를 가지는 evidence가 포함된 기사만 유지하여 multi-source reasoning이 가능하도록 설계했다.
GPT-4를 사용하여 multi-hop query 생성을 자동화한다.
원시 evidence는 구조적으로 불균일하므로, GPT-4가 이를 claim 형태로 재작성한다.
claim과 evidence 간 factual consistency 검증을 위해 UniEval framework를 사용한다.
동일한 bridge-entity 또는 bridge-topic을 공유하는 claim을 그룹화한다 (2~4개).
각 query 유형별로 GPT-4에 입력하여 multi-hop query를 생성한다.
실제 RAG 시나리오를 모방하기 위해 supporting evidence의 뉴스 source metadata를 query에 포함한다.
필요 evidence 개수:
embedding model 선택은 RAG 성능에 중요한 영향을 미친다.
테스트 embedding models:
이는 multi-hop query에서 단순 semantic similarity 기반 retrieval이 여전히 한계를 가진다는 점을 보여준다.

두 가지 설정을 비교한다.
Mixtral은 logical negation 처리와 temporal ordering에서 취약한 모습을 보였다.
이 실험은 multi-hop reasoning에서 특히 open-source LLM의 성능 개선 여지가 크다는 점을 보여준다.
MultiHop-RAG는 multi-hop query 기반 RAG 성능 향상을 위한 다양한 연구에 활용될 수 있다.
MultiHop-RAG는 multi-hop query를 위해 설계된 RAG benchmark dataset 중 하나이다.
이 데이터셋은 다음 요소를 포함한다.
Hybrid human + GPT-4 pipeline을 통해 구축되었으며, RAG 시스템 발전을 위한 중요한 benchmark로 활용될 수 있다.
정답 형식이 단순하다 (Yes/No, entity, temporal indicator 등).
향후에는 free-form generation을 허용하고, 더 정교한 evaluation metric을 도입할 수 있다.
Supporting evidence가 최대 4개로 제한되어 있다.
더 복잡한 multi-hop reasoning으로 확장 가능하다.
기본적인 RAG framework (LlamaIndex) 기반 실험을 수행했다.
향후에는 더 advanced한 RAG framework 또는 LLM-agent framework를 활용한 평가가 가능하다.