한줄 요약: 사전학습된 언어 모델과 검색 시스템을 결합하여 외부 지식을 동적으로 참조하는 RAG 패러다임을 최초로 제안, 지식 집약 태스크에서 순수 LLM과 순수 검색 시스템 모두를 초과했다.
| 항목 | 내용 |
|---|---|
| 저자 | Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, Sebastian Riedel, Douwe Kiela |
| 소속 | Meta AI Research, UCL, NYU |
| 발표 | NeurIPS 2020 |
| 링크 | arxiv.org/abs/2005.11401 |
| 키워드 | RAG, Retrieval, Knowledge-Intensive, Generative QA |
사전학습 LLM의 지식 한계:
1. 암묵적 저장: 지식이 파라미터에 분산 → 업데이트 불가 (재학습 필요)
2. 환각: 파라미터에 없는 정보를 "생성" → 사실 오류
3. 지식 시점 고정: 학습 이후 새 정보에 접근 불가
순수 검색 시스템의 한계:
검색 결과를 그대로 반환 → 추론, 요약, 생성 불가
여러 문서의 정보를 종합하기 어려움
핵심 아이디어:
검색(non-parametric memory) + 생성(parametric memory) 결합
→ 검색으로 관련 지식을 가져오고, LLM이 이를 기반으로 생성
입력 질문 x
↓
[Query Encoder] DPR (Dense Passage Retrieval)
↓
MIPS (Maximum Inner Product Search) → 상위 k개 문서 검색
↓
[Generator] BART (seq2seq LLM)
입력: 질문 + 검색된 문서들
출력: 최종 답변 y
수식:
p(y|x) = Σ_z p(z|x) · p(y|x, z)
p(z|x): 검색 확률 (DPR)
p(y|x,z): 생성 확률 (BART, 문서 z를 조건으로)
RAG-Sequence:
각 문서 z에 대해 전체 시퀀스 y를 독립 생성 → 확률 합산
p(y|x) = Σ_z p(z|x) · p(y|x, z)
→ 각 문서가 하나의 완전한 답변을 만드는 데 기여
RAG-Token:
각 토큰 생성 시마다 문서 분포를 재계산
p(y_t|x, y_{<t}) = Σ_z p(z|x) · p(y_t|x, z, y_{<t})
→ 더 유연: 답변의 다른 부분이 다른 문서에 기반 가능
엔드투엔드 학습:
1. 질문 → DPR로 문서 검색 (top-k)
2. 검색된 문서 + 질문 → BART로 답변 생성
3. 정답과 비교하여 loss 계산
4. BART와 Query Encoder를 함께 업데이트
(Document Encoder는 동결)
→ 검색과 생성이 공동 최적화
→ "이 질문에 어떤 문서가 유용한지"를 학습
| 모델 | Natural Questions | TriviaQA | WebQuestions |
|---|---|---|---|
| T5-11B (closed-book) | 34.5 | 50.1 | 37.4 |
| DPR + 추출 QA | 41.5 | 57.9 | 41.1 |
| RAG-Token | 44.5 | 56.8 | 45.2 |
| RAG-Sequence | 44.1 | 55.9 | 45.5 |
→ 순수 생성(T5)과 순수 검색(DPR) 모두 초과
Jeopardy 질문 생성:
| 모델 | Factuality (%) | Specificity (1-5) |
|---|---|---|
| BART (no retrieval) | 58.2% | 2.8 |
| RAG | 71.6% | 3.6 |
→ 검색 기반으로 사실적 정확도 13%p 향상
| 모델 | 정확도 |
|---|---|
| BERT (closed-book) | 71.6% |
| DPR + classifier | 72.5% |
| RAG | 72.7% |
Wikipedia 인덱스를 2018 → 2020으로 교체:
→ 재학습 없이 최신 지식 반영
→ 파라미터 기반 모델은 재학습 필수
"세계 인구는?" → 인덱스 교체만으로 최신 수치 반환
→ RAG의 핵심 이점: 지식을 외부에서 가져오므로 업데이트 용이
RAG 원본 논문을 2024년에 다시 읽으면 놀라운 점은 핵심 아이디어가 4년이 지나도 변하지 않았다는 것이다. "질문 → 검색 → 검색 결과와 함께 생성"이라는 기본 패턴은 지금의 프로덕션 RAG 시스템에서도 동일하다. 변한 것은 각 구성 요소의 강력함(DPR → ColBERT/BGE, BART → GPT-4/Claude)이지 구조가 아니다.
가장 과소평가된 기여는 "지식의 외재화"라는 개념이다. LLM의 지식을 파라미터 안에 "가둬두는" 대신 외부 데이터베이스에 저장하면, 지식 업데이트·삭제·추적이 가능해진다. 이는 규제 준수(GDPR 등), 정보 신선도, 환각 방지 등 프로덕션 요구사항의 핵심이다.
이 논문의 한계들(검색 검증 없음, 멀티홉 미지원 등)이 그대로 후속 연구의 로드맵이 되었다는 점도 주목할 만하다.
관련 논문: DPR, Self-RAG, CRAG, REALM, FiD (Fusion-in-Decoder)