https://arxiv.org/pdf/2407.08223?
간단 요약
Speculative RAG 방법과 내용 요약
Speculative RAG는 기존의 Retrieval-Augmented Generation(RAG) 방식의 한계를 보완하고, 특히 정보 집약적인 질문에서 더 높은 정확도와 효율성을 제공하는 방법입니다. 이 방법은 두 단계로 구성되는데, 먼저 'Specialist RAG Drafter'라는 소형 모델이 질문과 관련된 다수의 문서들을 소규모 클러스터로 나눠 다양한 답안 초안을 생성하고, 이후 'Generalist RAG Verifier'라는 대형 모델이 이러한 초안을 검토하여 최종 답안을 선택하는 구조입니다.
주요 단계 및 방법
문서 클러스터링 및 샘플링: 관련 문서들을 질문에 따라 몇 개의 클러스터로 나누고, 각 클러스터에서 하나의 문서를 샘플링하여 중복성을 줄이고 다양성을 높입니다.
초안 생성: Specialist RAG Drafter는 각 문서 샘플링 결과를 기반으로 질문에 대한 다양한 답안 초안과 그 근거(rationale)를 생성합니다. 이 Drafter는 소형 모델로, 속도를 중시하며 문서 기반의 정확한 답안을 생성할 수 있도록 학습됩니다.
검증 및 선택: Generalist RAG Verifier는 Drafter가 생성한 초안을 평가하여 신뢰도 점수를 계산하고, 가장 신뢰도가 높은 초안을 최종 답안으로 선택합니다. Verifier는 별도의 튜닝이 필요 없으며, Drafter의 초안을 효과적으로 검증해 최종 응답을 개선합니다.
한계점
Speculative RAG는 높은 효율성과 정확도를 제공하지만, 추가적으로 Specialist Drafter 모델을 훈련해야 한다는 점에서 복잡성이 증가합니다. 또한, 새로운 Drafter 모델의 튜닝 과정에서 약간의 계산 비용이 발생하며, 일반 RAG 모델과 비교해 약간의 설정 과정이 필요합니다.
Retrieval-Augmented Generation(RAG)은 대형 언어 모델(LLM)의 생성 능력에 외부 지식 소스를 결합하여 더 정확하고 최신의 응답을 제공합니다. 최근의 RAG 연구는 LLM의 반복적 세부 조정이나 자체 비판 능력을 추가 튜닝하여 검색 결과를 개선하는 데 중점을 두고 있습니다. 본 연구에서는 SPECULATIVE RAG라는 프레임워크를 소개합니다. 이 프레임워크는 소형의 특화된 LM이 생성한 여러 RAG 초안을 병렬로 검증하는 대형 일반 목적 LM을 활용합니다. 각 초안은 검색된 문서의 고유한 하위 집합에서 생성되어 다양한 관점을 제공하며, 초안별로 입력 토큰 수를 줄입니다. 이러한 접근은 각 하위 집합의 이해도를 높이고, 긴 문맥에서의 위치 편향 가능성을 줄입니다. 본 방법은 초안 생성을 소형의 특화된 LM에 위임하여 RAG 속도를 높이고, 대형 일반 LM이 단일 검증 과정을 수행하여 성능을 개선합니다. 광범위한 실험 결과, TriviaQA, MuSiQue, PubHealth, ARC-Challenge 벤치마크에서 SPECULATIVE RAG가 최첨단 성능을 달성하며, PubHealth 데이터셋에서는 정확도를 최대 12.97% 향상시키고 지연 시간을 51% 줄임을 확인했습니다.
대형 언어 모델(LLM)은 질문 응답 과제에서 상당한 성과를 보이고 있습니다. 그러나 지식 중심의 질문에 대한 최신 정보나 희귀 정보를 요구하는 질문에 대해 LLM은 사실 오류나 잘못된 내용을 생성하기도 합니다. RAG(Retrieval-Augmented Generation)는 외부 데이터베이스에서 정보를 검색하여 문맥에 포함함으로써 지식 중심의 과제에서 이러한 오류를 줄이는 유망한 해결책으로 떠오르고 있습니다.
RAG 시스템은 보통 필요한 정보를 모두 포함하기 위해 다수의 문서를 검색하는데, 이로 인해 입력이 길어지고 복잡한 추론이 필요해져서 지연 시간이 증가하는 문제가 발생합니다. 최근 연구는 LLM의 컨텍스트 길이 한계를 확장하는 방법을 모색하고 있으나, 긴 문맥에서 잘 연결된 추론을 달성하는 것은 여전히 해결되지 않은 문제입니다.
본 연구에서는 SPECULATIVE RAG를 제안하여 RAG의 과부하를 줄이고자 합니다. 소형의 특화된 LM을 사용해 효율적인 RAG 모듈로 활용하여 초안을 생성하게 하고, 이를 대형 일반 LM이 검증하는 구조로 효율성을 극대화하였습니다.
핵심 기여:
Speculative RAG의 관련 연구 및 방법론
Speculative RAG는 LLM의 성능과 효율성을 극대화하는 동시에 최신 정보와 다각적 관점을 반영하여 보다 정확한 답변을 제공합니다.
생략
본 연구에서 제안한 SPECULATIVE RAG는 RAG 작업을 초안 생성과 검증의 두 단계로 나눕니다. SPECULATIVE RAG는 소형 특화 RAG 드래프터가 초안 생성의 주요 작업을 담당하도록 하고, 대형 일반 LM이 검증을 수행하는 구조입니다. 다양한 문서 하위 집합에서 병렬로 생성된 여러 초안은 입력 토큰 수를 줄이며 긴 문맥에서 발생할 수 있는 위치 편향의 위험을 줄입니다. 본 연구는 SPECULATIVE RAG가 정확도를 최대 12.97% 향상시키고 지연 시간을 51% 줄임을 보여주며, RAG 성능을 향상시키기 위한 협력적 아키텍처의 가능성을 제시합니다.
한계(Limitations)
본 논문에서 제안한 소형의 특화된 RAG 드래프터는 지식 집약형 과제에서 대형 범용 LM을 효과적으로 보완합니다. SPECULATIVE RAG는 정확성과 효율성을 높이지만, 추가로 드래프터 모델을 훈련해야 한다는 점에서 복잡도가 증가하는 한계가 있습니다.