Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks

Tasker_Jang·2025년 4월 27일

지식 집약적 NLP 태스크를 위한 새로운 접근법

Facebook AI Research에서 발표한 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 논문에 대해 알아보겠습니다.

📌 초록 (Abstract)

대규모 사전 학습 언어 모델들은 파라미터에 상당한 지식을 저장하고 있지만, 지식에 접근하고 조작하는 능력에는 여전히 한계가 있습니다. 이로 인해 지식 집약적 태스크에서는 특화된 아키텍처보다 성능이 떨어지는 경우가 많죠.

이 논문에서는 Retrieval-Augmented Generation(RAG) 모델을 제안합니다. RAG는 두 가지 메모리를 결합합니다:

파라메트릭 메모리: 사전 학습된 seq2seq 모델
비파라메트릭 메모리: 사전 학습된 신경망 검색기로 접근하는 Wikipedia 색인

두 가지 RAG 변형을 비교했습니다:
1. RAG-Sequence: 전체 시퀀스에 동일한 검색 문서 사용
2. RAG-Token: 각 토큰마다 다른 문서 사용 가능

실험 결과, RAG 모델은 오픈 도메인 QA 태스크에서 최고 성능을 달성했고, 기존 모델보다 더 사실적이고 구체적인 텍스트를 생성했습니다.

🔍 서론 (Introduction)

사전 학습된 언어 모델은 방대한 데이터에서 엄청난 양의 지식을 습득할 수 있습니다. 하지만 이런 암묵적 지식 기반에는 분명한 한계가 있죠:

지식을 확장하거나 수정하기 어려움
예측에 대한 근거를 명확히 제공하기 어려움
"환각(hallucination)" 현상 발생 가능성

이런 문제를 해결하기 위해 파라메트릭 메모리와 비파라메트릭(검색 기반) 메모리를 결합한 하이브리드 모델이 연구되고 있습니다. REALM과 ORQA 같은 이전 연구들은 마스크된 언어 모델과 검색기를 결합했지만, 추출적 질문 응답만 다루었죠.

이 논문은 하이브리드 메모리 접근법을 시퀀스-투-시퀀스(seq2seq) 모델로 확장합니다. 사전 학습된 생성 모델에 검색 기능을 추가하는 일반적인 파인튜닝 방법인 RAG를 제안합니다.

RAG의 핵심 아이디어는 간단합니다:
1. 입력이 주어지면 관련 문서를 검색
2. 검색된 문서를 조건으로 출력 생성
3. 검색기와 생성기를 end-to-end로 함께 학습

🛠️ 방법론 (Methods)

RAG 모델 구조

RAG 모델은 다음 두 가지 핵심 구성 요소로 이루어져 있습니다:

검색기 pη(z|x):
- 입력 x가 주어지면 텍스트 문서 z의 분포를 반환
- 상위 K개 문서로 제한된 분포 생성
생성기 pθ(yi|x,z,y1:i-1):
- 이전 토큰들, 원래 입력, 검색된 문서를 기반으로 현재 토큰 생성

이 두 요소를 확률적 모델로 결합하여 end-to-end로 학습합니다. 검색된 문서 z를 잠재 변수로 취급하고, 두 가지 방식으로 주변화합니다:

RAG-Sequence 모델:

전체 시퀀스를 생성하는 데 동일한 문서 사용
문서별 시퀀스 확률을 계산한 후 주변화

pRAG-Sequence(y|x) = Σ[z∈top-k(pη(·|x))] pη(z|x) × pθ(y|x,z)

RAG-Token 모델:

각 토큰마다 다른 문서 사용 가능
토큰별로 문서에 대한 주변화 수행

pRAG-Token(y|x) = Πi Σ[z∈top-k(pη(·|x))] pη(z|x) × pθ(yi|x,z,y1:i-1)

주요 구성 요소

검색기(DPR):

Dense Passage Retriever 기반 이중 인코더 아키텍처
BERT 기반 문서 인코더와 쿼리 인코더로 구성
최대 내적 검색(MIPS)으로 효율적인 검색 수행
TriviaQA와 Natural Questions에서 사전 학습된 검색기 사용

생성기(BART):

400M 파라미터를 가진 사전 학습된 seq2seq 트랜스포머
다양한 노이징 함수와 디노이징 목표로 사전 학습됨
입력과 검색된 문서를 단순히 연결하여 BART에 제공

훈련 및 디코딩

훈련:

검색기와 생성기를 함께 학습
어떤 문서를 검색해야 하는지에 대한 직접적인 지도 없이 학습
문서 인코더는 고정하고 쿼리 인코더와 BART만 파인튜닝

디코딩:

RAG-Token: 표준 빔 디코딩 사용
RAG-Sequence: 각 문서별로 빔 검색 후 결과를 주변화하는 추가 단계 필요

🧪 실험 (Experiments)

RAG 모델을 다양한 지식 집약적 태스크에서 실험했습니다:

오픈 도메인 질문 응답:
- Natural Questions, TriviaQA, WebQuestions, CuratedTrec 데이터셋 사용
- 질문과 답변을 입력-출력 텍스트 쌍으로 취급
- 정확한 일치(Exact Match) 점수로 평가
추상적 질문 응답:
- MSMARCO NLG 태스크 사용
- 자유 형식의 추상적 텍스트 생성 능력 평가
Jeopardy 질문 생성:
- 답변 엔티티가 주어졌을 때 Jeopardy 스타일 질문 생성
- Q-BLEU-1 메트릭과 인간 평가로 측정
사실 검증:
- FEVER 데이터셋 사용
- 주장이 Wikipedia로 뒷받침되는지, 반박되는지, 결정할 정보가 충분하지 않은지 분류

📊 결과 (Results)

오픈 도메인 질문 응답

RAG 모델은 네 가지 오픈 도메인 QA 태스크 모두에서 최고 성능을 달성했습니다:

모델	NQ	TQA	WQ	CT
T5-11B	34.5	50.1	37.4	-
REALM	40.4	-	40.7	46.8
DPR	41.5	57.9	41.1	50.6
RAG-Token	44.1	55.2	45.5	50.0
RAG-Sequence	44.5	56.8	45.2	52.2

RAG의 장점:

답변을 직접 포함하지 않더라도 단서가 있는 문서가 정답 생성에 기여
검색된 문서에 정답이 없을 때도 NQ에서 11.8% 정확도 달성

추상적 질문 응답 및 생성 태스크

MS-MARCO:

RAG-Sequence가 BART보다 Bleu와 Rouge-L에서 2.6점 높은 성능
골드 패시지 없이도 최고 성능에 근접

Jeopardy 질문 생성:

RAG-Token이 가장 좋은 성능
인간 평가에서 BART보다 RAG가 42.7% 대 7.1%로 더 사실적
구체성에서도 37.4% 대 16.8%로 RAG가 우수

생성 예시:

[입력] define middle ear
[BART] 중이는 중이와 코 사이의 귀 부분입니다. (사실적으로 부정확)
[RAG-Sequence] 중이는 고막강과 세 개의 이소골을 포함합니다. (사실적으로 정확)

[입력] The Divine Comedy
[BART] 단테의 이 서사시는 지옥, 연옥, 연옥의 3부로 나뉩니다 (부분적으로 정확)
[RAG-Sequence] 이 14세기 작품은 "지옥", "연옥", "천국"의 3부로 나뉩니다 (완전히 정확)

사실 검증

FEVER 태스크에서 RAG는 특화된 파이프라인 시스템에 4.3% 이내로 근접한 성능을 보였습니다. 중간 검색 지도 없이도 높은 성능을 달성했다는 점이 인상적입니다.

추가 결과

생성 다양성:

RAG 모델은 다양성 촉진 디코딩 없이도 BART보다 훨씬 다양한 생성
삼중어(tri-gram) 다양성: RAG-Sequence(83.5%) > RAG-Token(77.8%) > BART(70.7%)

지식 업데이트 실험:

색인을 2016년에서 2018년 Wikipedia로 교체하여 테스트
각 시점의 세계 지도자에 대해 올바른 시점의 색인으로는 ~70% 정확도
재훈련 없이 모델의 지식을 업데이트할 수 있음을 증명

💭 논의 (Discussion)

RAG 모델은 파라메트릭 및 비파라메트릭 메모리를 결합하여 지식 집약적 태스크에서 뛰어난 성능을 보여주었습니다. 이 접근법의 주요 장점은:

사실적 생성: Wikipedia와 같은 신뢰할 수 있는 소스에서 정보를 검색하므로 "환각" 현상이 줄어듦
지식 업데이트 용이성: 색인을 교체하는 것만으로도 재훈련 없이 지식 업데이트 가능
해석 가능성: 생성에 사용된 문서를 검사할 수 있어 모델의 결정을 이해하기 쉬움
유연성: 다양한 NLP 태스크에 적용 가능한 일반적인 아키텍처

RAG는 파라메트릭 메모리와 비파라메트릭 메모리가 어떻게 상호작용하고 효과적으로 결합될 수 있는지에 대한 새로운 연구 방향을 제시합니다. 의학 데이터와 같은 다른 지식 베이스에도 적용할 수 있어, 다양한 응용 분야에서 활용될 수 있는 가능성을 보여줍니다.

이 논문은 언어 모델의 지식 한계를 극복하기 위한 중요한 발전을 보여주며, 이후 검색 증강 언어 모델 연구의 기반이 되었습니다. 현재의 최신 AI 시스템들에서도 이와 유사한 접근법이 널리 사용되고 있다는 점에서 그 영향력을 확인할 수 있습니다.

Tasker_Jang

ML Engineer 🧠 | AI 모델 개발과 최적화 경험을 기록하며 성장하는 개발자 🚀 The light that burns twice as bright burns half as long ✨