Facebook AI Research에서 발표한 "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" 논문에 대해 알아보겠습니다.
대규모 사전 학습 언어 모델들은 파라미터에 상당한 지식을 저장하고 있지만, 지식에 접근하고 조작하는 능력에는 여전히 한계가 있습니다. 이로 인해 지식 집약적 태스크에서는 특화된 아키텍처보다 성능이 떨어지는 경우가 많죠.
이 논문에서는 Retrieval-Augmented Generation(RAG) 모델을 제안합니다. RAG는 두 가지 메모리를 결합합니다:
두 가지 RAG 변형을 비교했습니다:
1. RAG-Sequence: 전체 시퀀스에 동일한 검색 문서 사용
2. RAG-Token: 각 토큰마다 다른 문서 사용 가능
실험 결과, RAG 모델은 오픈 도메인 QA 태스크에서 최고 성능을 달성했고, 기존 모델보다 더 사실적이고 구체적인 텍스트를 생성했습니다.
사전 학습된 언어 모델은 방대한 데이터에서 엄청난 양의 지식을 습득할 수 있습니다. 하지만 이런 암묵적 지식 기반에는 분명한 한계가 있죠:
이런 문제를 해결하기 위해 파라메트릭 메모리와 비파라메트릭(검색 기반) 메모리를 결합한 하이브리드 모델이 연구되고 있습니다. REALM과 ORQA 같은 이전 연구들은 마스크된 언어 모델과 검색기를 결합했지만, 추출적 질문 응답만 다루었죠.
이 논문은 하이브리드 메모리 접근법을 시퀀스-투-시퀀스(seq2seq) 모델로 확장합니다. 사전 학습된 생성 모델에 검색 기능을 추가하는 일반적인 파인튜닝 방법인 RAG를 제안합니다.
RAG의 핵심 아이디어는 간단합니다:
1. 입력이 주어지면 관련 문서를 검색
2. 검색된 문서를 조건으로 출력 생성
3. 검색기와 생성기를 end-to-end로 함께 학습
RAG 모델은 다음 두 가지 핵심 구성 요소로 이루어져 있습니다:
검색기 pη(z|x):
생성기 pθ(yi|x,z,y1:i-1):
이 두 요소를 확률적 모델로 결합하여 end-to-end로 학습합니다. 검색된 문서 z를 잠재 변수로 취급하고, 두 가지 방식으로 주변화합니다:
RAG-Sequence 모델:
pRAG-Sequence(y|x) = Σ[z∈top-k(pη(·|x))] pη(z|x) × pθ(y|x,z)
RAG-Token 모델:
pRAG-Token(y|x) = Πi Σ[z∈top-k(pη(·|x))] pη(z|x) × pθ(yi|x,z,y1:i-1)
검색기(DPR):
생성기(BART):
훈련:
디코딩:
RAG 모델을 다양한 지식 집약적 태스크에서 실험했습니다:
오픈 도메인 질문 응답:
추상적 질문 응답:
Jeopardy 질문 생성:
사실 검증:
RAG 모델은 네 가지 오픈 도메인 QA 태스크 모두에서 최고 성능을 달성했습니다:
| 모델 | NQ | TQA | WQ | CT |
|---|---|---|---|---|
| T5-11B | 34.5 | 50.1 | 37.4 | - |
| REALM | 40.4 | - | 40.7 | 46.8 |
| DPR | 41.5 | 57.9 | 41.1 | 50.6 |
| RAG-Token | 44.1 | 55.2 | 45.5 | 50.0 |
| RAG-Sequence | 44.5 | 56.8 | 45.2 | 52.2 |
RAG의 장점:
MS-MARCO:
Jeopardy 질문 생성:
생성 예시:
[입력] define middle ear
[BART] 중이는 중이와 코 사이의 귀 부분입니다. (사실적으로 부정확)
[RAG-Sequence] 중이는 고막강과 세 개의 이소골을 포함합니다. (사실적으로 정확)
[입력] The Divine Comedy
[BART] 단테의 이 서사시는 지옥, 연옥, 연옥의 3부로 나뉩니다 (부분적으로 정확)
[RAG-Sequence] 이 14세기 작품은 "지옥", "연옥", "천국"의 3부로 나뉩니다 (완전히 정확)
FEVER 태스크에서 RAG는 특화된 파이프라인 시스템에 4.3% 이내로 근접한 성능을 보였습니다. 중간 검색 지도 없이도 높은 성능을 달성했다는 점이 인상적입니다.
생성 다양성:
지식 업데이트 실험:
RAG 모델은 파라메트릭 및 비파라메트릭 메모리를 결합하여 지식 집약적 태스크에서 뛰어난 성능을 보여주었습니다. 이 접근법의 주요 장점은:
RAG는 파라메트릭 메모리와 비파라메트릭 메모리가 어떻게 상호작용하고 효과적으로 결합될 수 있는지에 대한 새로운 연구 방향을 제시합니다. 의학 데이터와 같은 다른 지식 베이스에도 적용할 수 있어, 다양한 응용 분야에서 활용될 수 있는 가능성을 보여줍니다.
이 논문은 언어 모델의 지식 한계를 극복하기 위한 중요한 발전을 보여주며, 이후 검색 증강 언어 모델 연구의 기반이 되었습니다. 현재의 최신 AI 시스템들에서도 이와 유사한 접근법이 널리 사용되고 있다는 점에서 그 영향력을 확인할 수 있습니다.