Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines

하임·4일 전

RAG

목록 보기
10/20

https://arxiv.org/pdf/2502.16641

논문 "Retrieval-Augmented Visual Question Answering via Built-in Autoregressive Search Engines" (ReAuSE)에 대한 상세 설명과 요약.


논문 개요

이 논문에서는 Retrieval-Augmented Generation (RAG) 기법을 활용하여 Visual Question Answering (VQA) 문제를 해결하는 새로운 모델 ReAuSE를 제안합니다. 기존의 RAG 기반 VQA 모델들은 지식 검색 (retrieval)답변 생성 (generation) 을 별도의 모듈로 분리하여 처리하는 반면, ReAuSE는 이 두 가지 기능을 하나의 Autoregressive Search Engine (자동 회귀 검색 엔진) 기반의 Generative Multi-modal Large Language Model (MLLM) 에 통합하여 동작하는 방식을 제안합니다.

주요 기여점:

  1. Generative Retrieval 방식: 기존의 검색 모델과 달리, ReAuSE는 질문과 이미지를 기반으로 문서 식별자 (Document Identifier)를 직접 생성하여 검색을 수행합니다.
  2. Reinforced Retrieval Calibration (보강된 검색 보정): VQA 모델의 답변 결과를 피드백으로 활용하여 검색 성능을 향상시킵니다.
  3. End-to-End Multi-modal Unified Model: 검색과 생성이 별개로 동작하지 않고 하나의 MLLM 내에서 동시 수행됩니다.

기존 연구와의 차이점

1. 전통적인 VQA와 Knowledge-based VQA

  • 전통적인 VQA 연구는 이미지 내부의 정보만 활용하여 질문에 답변(예: 개수 세기, 색상 판별)하는 방식이었습니다.
  • 그러나 Knowledge-based VQA는 외부 지식(예: Wikipedia, 검색 엔진)과 멀티모달 데이터(이미지 + 텍스트)를 함께 활용해야 하므로, 검색 (retrieval)과 답변 생성 (generation)이 중요한 역할을 합니다.

2. 기존 Retrieval-Augmented Generation (RAG) 기반 VQA의 문제점

  • 이중 모듈 구조: 검색(retrieval)과 생성(generation)이 분리되어 있어 연동이 어렵고 성능 최적화가 어렵습니다.
  • 이질적인 검색 방식: 기존 방식들은 판별 기반 검색 (discriminative retrieval) 모델을 사용하여 질문과 문서 간의 유사도를 비교하는 방식이었지만, 이 방식은 VQA에 적합하지 않을 수 있습니다.

3. ReAuSE의 차별점

ReAuSE는 기존의 판별 기반 검색 방식이 아닌, 생성적 검색 (Generative Retrieval) 을 활용하여 질문-이미지 쌍을 기반으로 문서 식별자 (Document Identifier)를 직접 생성하는 방식을 채택했습니다. 이를 통해, 기존 검색 방식보다 효율적으로 관련 문서를 검색하고, 최적의 답변을 생성할 수 있습니다.


ReAuSE의 주요 방법론

1. 문제 정의 (Problem Formulation)

  • Knowledge-based VQA의 입력은 X = {Q, I}로 주어지며, 여기서 Q는 질문, I는 이미지입니다.
  • 답변 생성을 위해 외부 지식이 필요하므로, 문서 집합 D = {D1, D2, ..., Dk}에서 적절한 문서를 검색해야 합니다.
  • ReAuSE는 다음과 같은 확률 모델을 기반으로 작동합니다.
  1. 문서 검색 확률:

    P(RiX)=j=1RiP(rjr<j,X,Θ)P(R_i | X) = \prod_{j=1}^{|R_i|} P(r_j | r_{<j}, X, \Theta)

    • 질의 X에 대해 문서 식별자 R_i를 생성합니다.
  2. 문서-답변 결합 확률:

    P(YX)=DiDP(RiX)P(YX,Di)P(Y | X) = \sum_{D_i \in D} P(R_i | X) \cdot P(Y | X, D_i)

    • 검색된 문서 D_i를 기반으로 최종 답변 Y를 생성합니다.

2. 내장형 Autoregressive Search Engine

  • ReAuSE는 기존 판별 기반 검색기와 다르게 MLLM이 문서 식별자를 직접 생성하여 문서를 검색합니다.
  • 이를 위해, ReAuSE는 문서의 일부 문자열을 토큰화하여 문서 식별자로 활용합니다.

3. 강화 학습 기반 검색 보정 (Reinforced Retrieval Calibration)

  • 검색된 문서의 품질을 개선하기 위해 VQA 모델의 피드백을 검색 모델에 반영하는 방식입니다.
  • 검색된 문서가 실제로 답변 생성에 유용한지 평가하는 3가지 척도:
    1. VQA 성능 기여도: 검색된 문서를 사용하여 생성된 답변이 정답에 가까운지 평가.
    2. 키워드 매칭: 검색된 문서 내에서 정답과 일치하는 키워드가 포함되어 있는지 평가.
    3. 의미적 유사도 (Semantic Similarity): 문서 식별자가 실제 문서와 의미적으로 유사한지 평가.

4. LoRA 기반 모델 학습

  • MLLM의 모든 가중치를 업데이트하지 않고, LoRA (Low-Rank Adaptation) 방식으로 파라미터 일부만 업데이트하여 학습 효율성을 높였습니다.

실험 결과

ReAuSE는 대표적인 Knowledge-based VQA 벤치마크 OKVQA, A-OKVQA 데이터셋에서 평가되었습니다.

1. OKVQA 성능 비교

모델PRRecall@5VQA Score
FLMR89.3%62.1%
GPT-4V-64.3%
ReAuSE (Ours)92.6%65.7%
  • 기존 최고 성능 모델 대비 +2.9% 향상된 VQA 점수 기록.

2. A-OKVQA 성능 비교

모델Multi-ChoiceDirect-Answer
LLaVA-1.5-7B74.5%58.6%
CKR-VQA75.4%60.1%
ReAuSE (Ours)80.3%65.8%
  • 기존 방법 대비 최대 9.6% 성능 향상.

3. 검색 성능 비교

검색 모델GS112K PRRecall@5Wiki21M PRRecall@5
FLMR89.3%68.1%
ReAuSE (Ours)92.6%88.0%
  • 대규모 지식베이스에서도 강력한 검색 성능을 보임.

결론 및 요약

ReAuSE는 기존 RAG 기반 VQA 모델들이 가진 한계를 극복하여 검색과 답변 생성을 통합한 새로운 접근 방식을 제안했습니다.

  1. 검색과 답변 생성을 하나의 MLLM에 통합하여 효율성과 성능을 개선했습니다.
  2. 기존 판별 기반 검색이 아닌, 생성적 검색 방식 (Generative Retrieval)을 활용하여 검색 품질을 향상시켰습니다.
  3. VQA 피드백을 활용한 강화 학습 (Reinforced Retrieval Calibration)을 통해 검색 성능을 추가로 보정했습니다.
  4. 실험 결과, 기존 최고 성능 모델 대비 OKVQA에서 +2.9%, A-OKVQA에서 최대 +9.6% 성능 향상을 달성했습니다.

ReAuSE는 향후 생의학 및 교육 분야 등 다양한 영역에서 활용 가능할 것으로 기대됩니다.

profile
NLP 공부합니당

0개의 댓글