최근 LLM의 환각현상을 줄이기 위한 도구? 기법?으로 RAG와 파인튜닝을 시도한다.
어떠한 것이 더 효과적인지 궁금하여 해당 논문에 대한 리뷰를 작성하게 되었다.
본 논문은 Microsoft Research 연구진이 주도적으로 작성하였으며, 농업 AI 분야 책임자인 Ranveer Chandra가 공동 저자로 참여함. 연구 주제는 RAG(Retrieval-Augmented Generation)와 Fine-Tuning을 비교하여, 두 방법이 LLM의 환각(hallucination) 감소와 답변 품질 향상에 각각 어떤 효과와 장단점을 가지는지 분석한 것 입니다. 자세한 내용은 아래 원문을 참고.
Original Paper : https://arxiv.org/abs/2401.08406
대규모 언어 모델(LLMs)을 특정 도메인(농업)에 적용할 때 사용되는 두 가지 주요 방법론인 검색 증강 생성(RAG)과 미세 조정(Fine-Tuning)의 파이프라인, 장단점, 그리고 사례 연구에 대해 설명한 논문.
연구 목표는 개발자들이 독점 데이터나 도메인별 데이터를 LLM 애플리케이션에 통합할 때 사용하는 RAG와 Fine-tuning의 장단점을 비교하고, 농업 데이터셋에 적용한 사례를 통해 성능을 검증하는 것임.

| 단계 | 설명 |
|---|---|
| 데이터 수집 | 정부 보고서, 학술 자료 등 권위 있는 소스에서 지역별 농업 데이터 확보 |
| PDF 정보 추출 | GROBID 사용해 비표준 PDF를 구조화된 JSON으로 변환 (섹션, 표, 그림, 상호참조 포함) |
| Q&A 생성 | Guidance 프레임워크로 문맥 기반 고품질 질문 생성. 위치/작물/질병 같은 컨텍스트 반영 |
| 답변 생성 (RAG) | BM25, Dense Retrieval, FAISS 기반 검색 → GPT-4 프롬프트에 문맥으로 삽입 |
| 미세 조정 (Fine-Tuning) | Q&A 쌍 활용해 Llama2, GPT-4 등 모델 학습. LoRA로 효율적 튜닝. A100/H100 GPU 사용 → 비용/리소스 현실 문제 부각됨 |
Figure 2 (PDF 추출 예시)
Listing 4 (Q&A 생성 프롬프트 예시)
Table 1 (GPT-4 vs Bing vs 전문가 답변 비교)
Table 6~8 (답변 품질 평가 사례)
Table 13 (모델별 성능 비교표)
RAG와 Fine-tuning 모두 성능 향상에 효과적임
두 방법은 대체 관계가 아니라 보완 관계임
결합했을 때 가장 높은 성능 발휘
산업 적용 시 어떤 방법 쓸지는 애플리케이션 요구사항, 데이터 규모, 리소스 상황에 따라 달라짐
| 특징 | RAG | Fine-tuning |
|---|---|---|
| 초기 비용 | 낮음 (임베딩 생성) | 높음 (데이터 준비+학습) |
| 입력 토큰 | 프롬프트 길어짐 | 짧음 |
| 출력 | 장황함, 제어 어려움 | 간결, 정밀 |
| 정확도 | 효과적임 | 효과적임 |
| 새로운 지식 | 컨텍스트 내 포함 시 활용 | 모델에 학습되어 활용 |
Table 23 (RAG vs Fine-tuning 비교표)
비용 문제
데이터 및 지식 추출 복잡성
멀티모달 확장