[논문 리뷰 - 2] Retrieval-Augmented Generation for Large Language Models: A Survey

shanny·2025년 4월 19일

논문리뷰

논문 리뷰

목록 보기

13/42

‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.

논문 URL - https://arxiv.org/abs/2312.10997

Introduction

LLM이 직면한 문제 : 훈련 데이터를 넘어서는 정보 또는 최신 정보를 요구하는 상황에서 정보할루시네이션(환각) 발생
RAG가 해결책 : 외부 지식 베이스에서 의미적 유사도 계산을 통해 관련 문서 조각을 검색하여 LLM을 강화
- 외부 지식을 참조함으로써 RAG는 환각을 효과적으로 줄이며, LLM과의 통합을 통해 챗봇 발전과 현실 적용 적합성 향상을 위한 핵심 기술로 자리잡았다.
RAG 발전 궤도의 특징
1. Transformer 아키텍처의 등장과 함께 RAG가 도입되었으며, 이 시기에는 사전학습 모델(PTM)을 통해 언어 모델에 추가 지식을 통합하는 데 초점을 맞췄다.
  - 사전학습 기법을 정교화하려는 기초 연구가 주를 이뤘다.
2. ChatGPT의 등장으로 전환점이 마련되었고, 대규모 언어 모델(LLM)이 강력한 인컨텍스트 러닝(ICL) 능력을 보여주면서 RAG 연구의 초점이 변화했다.
  - 즉, 추론 단계에서 LLM이 더 복잡하고 지식 집약적인 작업을 수행할 수 있도록 더 나은 정보를 제공하는 방향으로 연구가 빠르게 진전됐다.
3. 연구가 진화함에 따라, RAG의 개선은 단순히 추론 단계에만 국한되지 않고, LLM의 파인튜닝(fine-tuning) 기법과도 결합되는 등 더욱 긴밀하게 통합되는 방향으로 발전하고 있다.
문제 제기: RAG의 급속한 성장과 체계적 연구 부재
연구 목적:
- RAG 프로세스 매핑 및 LLM 통합 분석
- 기술 패러다임/연구 방법론 종합
방법론:
- 100+ 연구 사례 기반 3대 패러다임 분류
- "검색-생성-증강" 핵심 기술 분석
- 다운스트림 태스크/데이터셋/벤치마크 통합 검토
이 논문은 Naive RAG, Advanced RAG, Modular RAG를 포함한 패러다임을 통해 진화한 최신 RAG 방법론을 체계적·종합적으로 검토하며, LLM 생태계 내 RAG 연구의 광범위한 범위를 정립한다.
핵심 내용

RAG 핵심 기술 : "검색(Retrieval)", "생성(Generation)", "증강(Augmentation)"의 상호작용을 분석하여, 이 요소들이 어떻게 결합되어 효과적인 프레임워크를 구축하는지 규명한다.
평가 체계 : 26개 태스크와 50개 이상의 데이터셋을 포괄하는 평가 목표·지표·벤치마크·도구(RAGAS 등)를 체계화했다.
미래 방향 : 현재 과제(정보 신뢰도, 계산 복잡성 등)를 해결하기 위한 개선점(실시간 적응, 다중모달 통합)을 제시한다.

논문의 구조

개념 및 패러다임(II장): Naive RAG부터 Advanced/Modular RAG까지 진화 과정 설명
핵심 구성 요소:
- 검색(III장): 인덱싱·쿼리·임베딩 최적화 기법
- 생성(IV장): 검색 후 처리 및 LLM 파인튜닝
- 증강(V장): 컨텍스트 통합의 세 가지 프로세스 분석
- 평가 체계(VI장): 26개 다운스트림 태스크와 50개 데이터셋 기반 평가 프레임워크
- 과제 및 전망(VII장): 정보 신뢰도·계산 효율성 문제 해결 방향 제시
- 결론(VIII장): RAG의 학문적·실무적 기여 종합

Conclusion

기술 통합
- 파라미터화된 지식(언어 모델)과 비파라미터화된 외부 데이터(지식 베이스)의 결합을 통해 LLM의 한계 극복
- 파인튜닝·강화학습 등 AI 기법과의 융합으로 기능 확장
진화 단계
- Naive RAG → Advanced RAG → Modular RAG로의 단계적 발전
- 모듈식 아키텍처를 통한 유연성 및 확장성 강화
미래 과제
- 다중모달 처리(이미지·동영상·코드) 확대
- 장문맥 처리·강건성 개선 필요
- 평가 방법론 정교화로 성능 측정 체계 강화
실무 영향
- 학계와 산업계에서 RAG 중심 생태계 급성장
- 의료·교육·엔터프라이즈 검색 등 분야별 적용 사례 확산

shanny

데이터 분석가

이전 포스트

[논문 리뷰 - 1] Retrieval-Augmented Generation for Large Language Models: A Survey

다음 포스트

[논문 리뷰 - 2] Retrieval-Augmented Generation for Large Language Models: A Survey

논문 리뷰

Introduction

Conclusion

[논문 리뷰 - 1] Retrieval-Augmented Generation for Large Language Models: A Survey

[논문 리뷰 - 3] Retrieval-Augmented Generation for Large Language Models: A Survey

0개의 댓글