‼️ 개인 학습 내용으로, 오류가 있을 수 있습니다.
논문 URL - https://arxiv.org/abs/2312.10997
LLM이 직면한 문제 : 훈련 데이터를 넘어서는 정보 또는 최신 정보를 요구하는 상황에서 정보할루시네이션(환각) 발생
RAG가 해결책 : 외부 지식 베이스에서 의미적 유사도 계산을 통해 관련 문서 조각을 검색하여 LLM을 강화
RAG 발전 궤도의 특징
Transformer 아키텍처의 등장과 함께 RAG가 도입되었으며, 이 시기에는 사전학습 모델(PTM)을 통해 언어 모델에 추가 지식을 통합하는 데 초점을 맞췄다.
ChatGPT의 등장으로 전환점이 마련되었고, 대규모 언어 모델(LLM)이 강력한 인컨텍스트 러닝(ICL) 능력을 보여주면서 RAG 연구의 초점이 변화했다.
연구가 진화함에 따라, RAG의 개선은 단순히 추론 단계에만 국한되지 않고, LLM의 파인튜닝(fine-tuning) 기법과도 결합되는 등 더욱 긴밀하게 통합되는 방향으로 발전하고 있다.
문제 제기: RAG의 급속한 성장과 체계적 연구 부재
연구 목적:
방법론:
이 논문은 Naive RAG, Advanced RAG, Modular RAG를 포함한 패러다임을 통해 진화한 최신 RAG 방법론을 체계적·종합적으로 검토하며, LLM 생태계 내 RAG 연구의 광범위한 범위를 정립한다.
핵심 내용
RAG 핵심 기술 : "검색(Retrieval)", "생성(Generation)", "증강(Augmentation)"의 상호작용을 분석하여, 이 요소들이 어떻게 결합되어 효과적인 프레임워크를 구축하는지 규명한다.
평가 체계 : 26개 태스크와 50개 이상의 데이터셋을 포괄하는 평가 목표·지표·벤치마크·도구(RAGAS 등)를 체계화했다.
미래 방향 : 현재 과제(정보 신뢰도, 계산 복잡성 등)를 해결하기 위한 개선점(실시간 적응, 다중모달 통합)을 제시한다.
기술 통합
진화 단계
미래 과제
실무 영향