[논문 리뷰] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

smj·2026년 3월 31일

KnowledgeIntensive OpenDomainQA RetrievalAugmented rag 논문리뷰

review

목록 보기

28/30

한줄 요약: 사전학습된 언어 모델과 검색 시스템을 결합하여 외부 지식을 동적으로 참조하는 RAG 패러다임을 최초로 제안, 지식 집약 태스크에서 순수 LLM과 순수 검색 시스템 모두를 초과했다.

항목	내용
저자	Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela
소속	Meta AI Research, UCL, NYU
발표	NeurIPS 2020
링크	arxiv.org/abs/2005.11401
키워드	RAG, Retrieval, Knowledge-Intensive, Generative QA

1. 문제 정의

사전학습 LLM의 지식 한계:
  1. 암묵적 저장: 지식이 파라미터에 분산 → 업데이트 불가 (재학습 필요)
  2. 환각: 파라미터에 없는 정보를 "생성" → 사실 오류
  3. 지식 시점 고정: 학습 이후 새 정보에 접근 불가

순수 검색 시스템의 한계:
  검색 결과를 그대로 반환 → 추론, 요약, 생성 불가
  여러 문서의 정보를 종합하기 어려움

핵심 아이디어:
  검색(non-parametric memory) + 생성(parametric memory) 결합
  → 검색으로 관련 지식을 가져오고, LLM이 이를 기반으로 생성

2. 제안 방법

RAG 아키텍처

입력 질문 x
    ↓
[Query Encoder] DPR (Dense Passage Retrieval)
    ↓
MIPS (Maximum Inner Product Search) → 상위 k개 문서 검색
    ↓
[Generator] BART (seq2seq LLM)
    입력: 질문 + 검색된 문서들
    출력: 최종 답변 y

수식:
  p(y|x) = Σ_z p(z|x) · p(y|x, z)

  p(z|x): 검색 확률 (DPR)
  p(y|x,z): 생성 확률 (BART, 문서 z를 조건으로)

두 가지 변형

RAG-Sequence:
  각 문서 z에 대해 전체 시퀀스 y를 독립 생성 → 확률 합산
  p(y|x) = Σ_z p(z|x) · p(y|x, z)
  → 각 문서가 하나의 완전한 답변을 만드는 데 기여

RAG-Token:
  각 토큰 생성 시마다 문서 분포를 재계산
  p(y_t|x, y_{<t}) = Σ_z p(z|x) · p(y_t|x, z, y_{<t})
  → 더 유연: 답변의 다른 부분이 다른 문서에 기반 가능

학습

엔드투엔드 학습:
  1. 질문 → DPR로 문서 검색 (top-k)
  2. 검색된 문서 + 질문 → BART로 답변 생성
  3. 정답과 비교하여 loss 계산
  4. BART와 Query Encoder를 함께 업데이트
     (Document Encoder는 동결)

→ 검색과 생성이 공동 최적화
→ "이 질문에 어떤 문서가 유용한지"를 학습

3. 실험 결과

3.1 Open-domain QA

모델	Natural Questions	TriviaQA	WebQuestions
T5-11B (closed-book)	34.5	50.1	37.4
DPR + 추출 QA	41.5	57.9	41.1
RAG-Token	44.5	56.8	45.2
RAG-Sequence	44.1	55.9	45.5

→ 순수 생성(T5)과 순수 검색(DPR) 모두 초과

3.2 지식 집약 생성 태스크

Jeopardy 질문 생성:

모델	Factuality (%)	Specificity (1-5)
BART (no retrieval)	58.2%	2.8
RAG	71.6%	3.6

→ 검색 기반으로 사실적 정확도 13%p 향상

3.3 FEVER (사실 검증)

모델	정확도
BERT (closed-book)	71.6%
DPR + classifier	72.5%
RAG	72.7%

3.4 지식 업데이트 실험

Wikipedia 인덱스를 2018 → 2020으로 교체:
  → 재학습 없이 최신 지식 반영
  → 파라미터 기반 모델은 재학습 필수

"세계 인구는?" → 인덱스 교체만으로 최신 수치 반환
→ RAG의 핵심 이점: 지식을 외부에서 가져오므로 업데이트 용이

4. 한계점

검색기 성능 의존: DPR의 검색 품질이 RAG 전체 성능의 상한 → 검색 실패 시 순수 LLM보다 나빠질 수 있음
고정된 top-k: k=5로 고정, 질문 난이도에 따라 동적 k 조정 미지원
BART 크기 제한: 400M 파라미터 → 현대 LLM(7B+) 대비 생성 능력 제한
검색 지연: 실시간 MIPS 검색 추가 → 추론 지연 증가
검색 결과 검증 없음: 관련 없는 문서가 검색되어도 그대로 사용 (이후 Self-RAG, CRAG에서 해결)
멀티홉 추론 미지원: 단일 검색으로 답을 찾을 수 없는 복합 질문에 취약

5. 의의와 영향

RAG 패러다임의 창시 논문 — "RAG"이라는 용어 자체를 만듦
파라미터 지식 + 외부 지식 결합이라는 아키텍처 패턴 확립
2023-2024년 LLM 애플리케이션의 가장 일반적인 아키텍처가 됨
LangChain, LlamaIndex 등 RAG 프레임워크의 학문적 기반
Self-RAG, CRAG, Adaptive-RAG 등 발전형 RAG의 출발점
ChatGPT + Browsing, Perplexity AI 등 상용 서비스의 근간

6. 💬 리뷰어 코멘트

RAG 원본 논문을 2024년에 다시 읽으면 놀라운 점은 핵심 아이디어가 4년이 지나도 변하지 않았다는 것이다. "질문 → 검색 → 검색 결과와 함께 생성"이라는 기본 패턴은 지금의 프로덕션 RAG 시스템에서도 동일하다. 변한 것은 각 구성 요소의 강력함(DPR → ColBERT/BGE, BART → GPT-4/Claude)이지 구조가 아니다.

가장 과소평가된 기여는 "지식의 외재화"라는 개념이다. LLM의 지식을 파라미터 안에 "가둬두는" 대신 외부 데이터베이스에 저장하면, 지식 업데이트·삭제·추적이 가능해진다. 이는 규제 준수(GDPR 등), 정보 신선도, 환각 방지 등 프로덕션 요구사항의 핵심이다.

이 논문의 한계들(검색 검증 없음, 멀티홉 미지원 등)이 그대로 후속 연구의 로드맵이 되었다는 점도 주목할 만하다.

관련 논문: DPR, Self-RAG, CRAG, REALM, FiD (Fusion-in-Decoder)

smj

이전 포스트

[논문 리뷰] Corrective Retrieval Augmented Generation (CRAG)

다음 포스트