https://arxiv.org/pdf/2502.16641
논문 "Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines" (ReAuSE)에 대한 상세 설명과 요약.
논문 개요
이 논문에서는 Retrieval-Augmented Generation (RAG) 기법을 활용하여 Visual Question Answering (VQA) 문제를 해결하는 새로운 모델 ReAuSE를 제안합니다. 기존의 RAG 기반 VQA 모델들은 지식 검색 (retrieval) 과 답변 생성 (generation) 을 별도의 모듈로 분리하여 처리하는 반면, ReAuSE는 이 두 가지 기능을 하나의 Autoregressive Search Engine (자동 회귀 검색 엔진) 기반의 Generative Multi-modal Large Language Model (MLLM) 에 통합하여 동작하는 방식을 제안합니다.
주요 기여점:
- Generative Retrieval 방식: 기존의 검색 모델과 달리, ReAuSE는 질문과 이미지를 기반으로 문서 식별자 (Document Identifier)를 직접 생성하여 검색을 수행합니다.
- Reinforced Retrieval Calibration (보강된 검색 보정): VQA 모델의 답변 결과를 피드백으로 활용하여 검색 성능을 향상시킵니다.
- End-to-End Multi-modal Unified Model: 검색과 생성이 별개로 동작하지 않고 하나의 MLLM 내에서 동시 수행됩니다.
기존 연구와의 차이점
1. 전통적인 VQA와 Knowledge-based VQA
- 전통적인 VQA 연구는 이미지 내부의 정보만 활용하여 질문에 답변(예: 개수 세기, 색상 판별)하는 방식이었습니다.
- 그러나 Knowledge-based VQA는 외부 지식(예: Wikipedia, 검색 엔진)과 멀티모달 데이터(이미지 + 텍스트)를 함께 활용해야 하므로, 검색 (retrieval)과 답변 생성 (generation)이 중요한 역할을 합니다.
2. 기존 Retrieval-Augmented Generation (RAG) 기반 VQA의 문제점
- 이중 모듈 구조: 검색(retrieval)과 생성(generation)이 분리되어 있어 연동이 어렵고 성능 최적화가 어렵습니다.
- 이질적인 검색 방식: 기존 방식들은 판별 기반 검색 (discriminative retrieval) 모델을 사용하여 질문과 문서 간의 유사도를 비교하는 방식이었지만, 이 방식은 VQA에 적합하지 않을 수 있습니다.
3. ReAuSE의 차별점
ReAuSE는 기존의 판별 기반 검색 방식이 아닌, 생성적 검색 (Generative Retrieval) 을 활용하여 질문-이미지 쌍을 기반으로 문서 식별자 (Document Identifier)를 직접 생성하는 방식을 채택했습니다. 이를 통해, 기존 검색 방식보다 효율적으로 관련 문서를 검색하고, 최적의 답변을 생성할 수 있습니다.
ReAuSE의 주요 방법론
- Knowledge-based VQA의 입력은
X = {Q, I}로 주어지며, 여기서 Q는 질문, I는 이미지입니다.
- 답변 생성을 위해 외부 지식이 필요하므로, 문서 집합
D = {D1, D2, ..., Dk}에서 적절한 문서를 검색해야 합니다.
- ReAuSE는 다음과 같은 확률 모델을 기반으로 작동합니다.
-
문서 검색 확률:
P(Ri∣X)=∏j=1∣Ri∣P(rj∣r<j,X,Θ)
- 질의
X에 대해 문서 식별자 R_i를 생성합니다.
-
문서-답변 결합 확률:
P(Y∣X)=∑Di∈DP(Ri∣X)⋅P(Y∣X,Di)
- 검색된 문서
D_i를 기반으로 최종 답변 Y를 생성합니다.
2. 내장형 Autoregressive Search Engine
- ReAuSE는 기존 판별 기반 검색기와 다르게 MLLM이 문서 식별자를 직접 생성하여 문서를 검색합니다.
- 이를 위해, ReAuSE는 문서의 일부 문자열을 토큰화하여 문서 식별자로 활용합니다.
3. 강화 학습 기반 검색 보정 (Reinforced Retrieval Calibration)
- 검색된 문서의 품질을 개선하기 위해 VQA 모델의 피드백을 검색 모델에 반영하는 방식입니다.
- 검색된 문서가 실제로 답변 생성에 유용한지 평가하는 3가지 척도:
- VQA 성능 기여도: 검색된 문서를 사용하여 생성된 답변이 정답에 가까운지 평가.
- 키워드 매칭: 검색된 문서 내에서 정답과 일치하는 키워드가 포함되어 있는지 평가.
- 의미적 유사도 (Semantic Similarity): 문서 식별자가 실제 문서와 의미적으로 유사한지 평가.
4. LoRA 기반 모델 학습
- MLLM의 모든 가중치를 업데이트하지 않고, LoRA (Low-Rank Adaptation) 방식으로 파라미터 일부만 업데이트하여 학습 효율성을 높였습니다.
실험 결과
ReAuSE는 대표적인 Knowledge-based VQA 벤치마크 OKVQA, A-OKVQA 데이터셋에서 평가되었습니다.
1. OKVQA 성능 비교
| 모델 | PRRecall@5 | VQA Score |
|---|
| FLMR | 89.3% | 62.1% |
| GPT-4V | - | 64.3% |
| ReAuSE (Ours) | 92.6% | 65.7% |
- 기존 최고 성능 모델 대비 +2.9% 향상된 VQA 점수 기록.
2. A-OKVQA 성능 비교
| 모델 | Multi-Choice | Direct-Answer |
|---|
| LLaVA-1.5-7B | 74.5% | 58.6% |
| CKR-VQA | 75.4% | 60.1% |
| ReAuSE (Ours) | 80.3% | 65.8% |
3. 검색 성능 비교
| 검색 모델 | GS112K PRRecall@5 | Wiki21M PRRecall@5 |
|---|
| FLMR | 89.3% | 68.1% |
| ReAuSE (Ours) | 92.6% | 88.0% |
- 대규모 지식베이스에서도 강력한 검색 성능을 보임.
결론 및 요약
ReAuSE는 기존 RAG 기반 VQA 모델들이 가진 한계를 극복하여 검색과 답변 생성을 통합한 새로운 접근 방식을 제안했습니다.
- 검색과 답변 생성을 하나의 MLLM에 통합하여 효율성과 성능을 개선했습니다.
- 기존 판별 기반 검색이 아닌, 생성적 검색 방식 (Generative Retrieval)을 활용하여 검색 품질을 향상시켰습니다.
- VQA 피드백을 활용한 강화 학습 (Reinforced Retrieval Calibration)을 통해 검색 성능을 추가로 보정했습니다.
- 실험 결과, 기존 최고 성능 모델 대비 OKVQA에서 +2.9%, A-OKVQA에서 최대 +9.6% 성능 향상을 달성했습니다.
ReAuSE는 향후 생의학 및 교육 분야 등 다양한 영역에서 활용 가능할 것으로 기대됩니다.