Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Tasker_Jang·2025년 4월 27일

지식 집약적 NLP 태스크를 위한 새로운 접근법

Facebook AI Research에서 발표한 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 논문에 대해 알아보겠습니다.

📌 초록 (Abstract)

대규모 사전 학습 언어 모델들은 파라미터에 상당한 지식을 저장하고 있지만, 지식에 접근하고 조작하는 능력에는 여전히 한계가 있습니다. 이로 인해 지식 집약적 태스크에서는 특화된 아키텍처보다 성능이 떨어지는 경우가 많죠.

이 논문에서는 Retrieval-Augmented Generation(RAG) 모델을 제안합니다. RAG는 두 가지 메모리를 결합합니다:

  • 파라메트릭 메모리: 사전 학습된 seq2seq 모델
  • 비파라메트릭 메모리: 사전 학습된 신경망 검색기로 접근하는 Wikipedia 색인

두 가지 RAG 변형을 비교했습니다:
1. RAG-Sequence: 전체 시퀀스에 동일한 검색 문서 사용
2. RAG-Token: 각 토큰마다 다른 문서 사용 가능

실험 결과, RAG 모델은 오픈 도메인 QA 태스크에서 최고 성능을 달성했고, 기존 모델보다 더 사실적이고 구체적인 텍스트를 생성했습니다.

🔍 서론 (Introduction)

사전 학습된 언어 모델은 방대한 데이터에서 엄청난 양의 지식을 습득할 수 있습니다. 하지만 이런 암묵적 지식 기반에는 분명한 한계가 있죠:

  • 지식을 확장하거나 수정하기 어려움
  • 예측에 대한 근거를 명확히 제공하기 어려움
  • "환각(hallucination)" 현상 발생 가능성

이런 문제를 해결하기 위해 파라메트릭 메모리와 비파라메트릭(검색 기반) 메모리를 결합한 하이브리드 모델이 연구되고 있습니다. REALM과 ORQA 같은 이전 연구들은 마스크된 언어 모델과 검색기를 결합했지만, 추출적 질문 응답만 다루었죠.

이 논문은 하이브리드 메모리 접근법을 시퀀스-투-시퀀스(seq2seq) 모델로 확장합니다. 사전 학습된 생성 모델에 검색 기능을 추가하는 일반적인 파인튜닝 방법인 RAG를 제안합니다.

RAG의 핵심 아이디어는 간단합니다:
1. 입력이 주어지면 관련 문서를 검색
2. 검색된 문서를 조건으로 출력 생성
3. 검색기와 생성기를 end-to-end로 함께 학습

🛠️ 방법론 (Methods)

RAG 모델 구조

RAG 모델은 다음 두 가지 핵심 구성 요소로 이루어져 있습니다:

  1. 검색기 pη(z|x):

    • 입력 x가 주어지면 텍스트 문서 z의 분포를 반환
    • 상위 K개 문서로 제한된 분포 생성
  2. 생성기 pθ(yi|x,z,y1:i-1):

    • 이전 토큰들, 원래 입력, 검색된 문서를 기반으로 현재 토큰 생성

이 두 요소를 확률적 모델로 결합하여 end-to-end로 학습합니다. 검색된 문서 z를 잠재 변수로 취급하고, 두 가지 방식으로 주변화합니다:

RAG-Sequence 모델:

  • 전체 시퀀스를 생성하는 데 동일한 문서 사용
  • 문서별 시퀀스 확률을 계산한 후 주변화
pRAG-Sequence(y|x) = Σ[z∈top-k(pη(·|x))] pη(z|x) × pθ(y|x,z)

RAG-Token 모델:

  • 각 토큰마다 다른 문서 사용 가능
  • 토큰별로 문서에 대한 주변화 수행
pRAG-Token(y|x) = Πi Σ[z∈top-k(pη(·|x))] pη(z|x) × pθ(yi|x,z,y1:i-1)

주요 구성 요소

검색기(DPR):

  • Dense Passage Retriever 기반 이중 인코더 아키텍처
  • BERT 기반 문서 인코더와 쿼리 인코더로 구성
  • 최대 내적 검색(MIPS)으로 효율적인 검색 수행
  • TriviaQA와 Natural Questions에서 사전 학습된 검색기 사용

생성기(BART):

  • 400M 파라미터를 가진 사전 학습된 seq2seq 트랜스포머
  • 다양한 노이징 함수와 디노이징 목표로 사전 학습됨
  • 입력과 검색된 문서를 단순히 연결하여 BART에 제공

훈련 및 디코딩

훈련:

  • 검색기와 생성기를 함께 학습
  • 어떤 문서를 검색해야 하는지에 대한 직접적인 지도 없이 학습
  • 문서 인코더는 고정하고 쿼리 인코더와 BART만 파인튜닝

디코딩:

  • RAG-Token: 표준 빔 디코딩 사용
  • RAG-Sequence: 각 문서별로 빔 검색 후 결과를 주변화하는 추가 단계 필요

🧪 실험 (Experiments)

RAG 모델을 다양한 지식 집약적 태스크에서 실험했습니다:

  1. 오픈 도메인 질문 응답:

    • Natural Questions, TriviaQA, WebQuestions, CuratedTrec 데이터셋 사용
    • 질문과 답변을 입력-출력 텍스트 쌍으로 취급
    • 정확한 일치(Exact Match) 점수로 평가
  2. 추상적 질문 응답:

    • MSMARCO NLG 태스크 사용
    • 자유 형식의 추상적 텍스트 생성 능력 평가
  3. Jeopardy 질문 생성:

    • 답변 엔티티가 주어졌을 때 Jeopardy 스타일 질문 생성
    • Q-BLEU-1 메트릭과 인간 평가로 측정
  4. 사실 검증:

    • FEVER 데이터셋 사용
    • 주장이 Wikipedia로 뒷받침되는지, 반박되는지, 결정할 정보가 충분하지 않은지 분류

📊 결과 (Results)

오픈 도메인 질문 응답

RAG 모델은 네 가지 오픈 도메인 QA 태스크 모두에서 최고 성능을 달성했습니다:

모델NQTQAWQCT
T5-11B34.550.137.4-
REALM40.4-40.746.8
DPR41.557.941.150.6
RAG-Token44.155.245.550.0
RAG-Sequence44.556.845.252.2

RAG의 장점:

  • 답변을 직접 포함하지 않더라도 단서가 있는 문서가 정답 생성에 기여
  • 검색된 문서에 정답이 없을 때도 NQ에서 11.8% 정확도 달성

추상적 질문 응답 및 생성 태스크

MS-MARCO:

  • RAG-Sequence가 BART보다 Bleu와 Rouge-L에서 2.6점 높은 성능
  • 골드 패시지 없이도 최고 성능에 근접

Jeopardy 질문 생성:

  • RAG-Token이 가장 좋은 성능
  • 인간 평가에서 BART보다 RAG가 42.7% 대 7.1%로 더 사실적
  • 구체성에서도 37.4% 대 16.8%로 RAG가 우수

생성 예시:

[입력] define middle ear
[BART] 중이는 중이와 코 사이의 귀 부분입니다. (사실적으로 부정확)
[RAG-Sequence] 중이는 고막강과 세 개의 이소골을 포함합니다. (사실적으로 정확)

[입력] The Divine Comedy
[BART] 단테의 이 서사시는 지옥, 연옥, 연옥의 3부로 나뉩니다 (부분적으로 정확)
[RAG-Sequence] 이 14세기 작품은 "지옥", "연옥", "천국"의 3부로 나뉩니다 (완전히 정확)

사실 검증

FEVER 태스크에서 RAG는 특화된 파이프라인 시스템에 4.3% 이내로 근접한 성능을 보였습니다. 중간 검색 지도 없이도 높은 성능을 달성했다는 점이 인상적입니다.

추가 결과

생성 다양성:

  • RAG 모델은 다양성 촉진 디코딩 없이도 BART보다 훨씬 다양한 생성
  • 삼중어(tri-gram) 다양성: RAG-Sequence(83.5%) > RAG-Token(77.8%) > BART(70.7%)

지식 업데이트 실험:

  • 색인을 2016년에서 2018년 Wikipedia로 교체하여 테스트
  • 각 시점의 세계 지도자에 대해 올바른 시점의 색인으로는 ~70% 정확도
  • 재훈련 없이 모델의 지식을 업데이트할 수 있음을 증명

💭 논의 (Discussion)

RAG 모델은 파라메트릭 및 비파라메트릭 메모리를 결합하여 지식 집약적 태스크에서 뛰어난 성능을 보여주었습니다. 이 접근법의 주요 장점은:

  1. 사실적 생성: Wikipedia와 같은 신뢰할 수 있는 소스에서 정보를 검색하므로 "환각" 현상이 줄어듦
  2. 지식 업데이트 용이성: 색인을 교체하는 것만으로도 재훈련 없이 지식 업데이트 가능
  3. 해석 가능성: 생성에 사용된 문서를 검사할 수 있어 모델의 결정을 이해하기 쉬움
  4. 유연성: 다양한 NLP 태스크에 적용 가능한 일반적인 아키텍처

RAG는 파라메트릭 메모리와 비파라메트릭 메모리가 어떻게 상호작용하고 효과적으로 결합될 수 있는지에 대한 새로운 연구 방향을 제시합니다. 의학 데이터와 같은 다른 지식 베이스에도 적용할 수 있어, 다양한 응용 분야에서 활용될 수 있는 가능성을 보여줍니다.

이 논문은 언어 모델의 지식 한계를 극복하기 위한 중요한 발전을 보여주며, 이후 검색 증강 언어 모델 연구의 기반이 되었습니다. 현재의 최신 AI 시스템들에서도 이와 유사한 접근법이 널리 사용되고 있다는 점에서 그 영향력을 확인할 수 있습니다.

profile
ML Engineer 🧠 | AI 모델 개발과 최적화 경험을 기록하며 성장하는 개발자 🚀 The light that burns twice as bright burns half as long ✨

0개의 댓글