LLM은 사전에 학습된 데이터에 대한 응답은 뛰어나지만,
특정 도메인 질문이나 환각(hallucination) 문제에 취약하다.
이런 한계를 극복하기 위해 등장한 개념이 바로 RAG(Retrieval-Augmented Generation)이다.
2020년 논문
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks 에서 처음 등장했다.
RAG는 LLM에게 외부 데이터를 주고, 그 데이터를 참고해 응답을 생성하도록 유도하는 구조다.

Retrieve (검색)
Augment (증강)
Generate (생성)

| 항목 | 파인튜닝 | RAG |
|---|---|---|
| 방식 | 모델 자체 재학습 | 외부 데이터로 응답 증강 |
| 장점 | 도메인 맞춤 최적화, 빠른 응답 | 최신 정보 활용, 유연한 적용 |
| 단점 | 비용 큼, 업데이트 어려움 | 검색 지연, 리소스 추가 필요 |
| 적용 | 법률, 의료, 감성 분석 등 | 뉴스, 문서 요약, 실시간 QA 등 |
요약: 파인튜닝은 모델을 바꾸고, RAG는 입력을 바꾼다.
RAG + 파인튜닝을 결합한 하이브리드 방식
→ RAFT: Retrieval-Augmented Fine-Tuning
RAG의 단점인 “검색 오류에 대한 취약성”을 보완


인덱스와 모델을 하나의 시스템으로 파인튜닝하여
정확도와 유연성을 동시에 향상
| 용어 | 핵심 아이디어 | 강점 | 약점 |
|---|---|---|---|
| RAG | 외부 문서 검색 + 프롬프트 생성 | 최신성, 빠른 적용 | 검색 지연, 리소스 사용 |
| 파인튜닝 | 모델 재학습 | 정확도, 고정 응답 | 비용, 업데이트 불가 |
| RAFT | 둘을 결합 | RAG 취약성 보완 | 구현 난이도 |
| RAG 2.0 | LLM + Retriever 공동 학습 | 통합성, 동적 정보 활용 | 기술적 복잡성 |