한줄 요약: 검색 결과의 품질을 {Correct, Ambiguous, Incorrect}로 평가하고, 부정확할 경우 웹 검색으로 전환하는 자기 교정 RAG로, 기존 RAG의 노이즈 문제를 체계적으로 해결했다.
| 항목 | 내용 |
|---|---|
| 저자 | Shi-Qi Yan, Jia-Chen Gu, Yun Zhu, Zhen-Hua Ling |
| 소속 | University of Science and Technology of China |
| 발표 | AAAI 2024 |
| 링크 | arxiv.org/abs/2401.15884 |
| 키워드 | RAG, Corrective Retrieval, Self-Correction, Web Search |
Naive RAG의 치명적 가정: "검색이 항상 관련 문서를 반환한다"
현실:
검색 쿼리가 모호 → 무관한 문서 반환
지식 베이스에 정보 없음 → 부분적으로만 관련된 문서
임베딩 유사도 높지만 의미 무관 → false positive
결과:
무관한 문서가 컨텍스트에 포함 → LLM이 이를 기반으로 생성 → 환각
"검색하지 않았을 때보다 검색해서 더 나빠지는" 상황 발생
경량 T5 모델을 학습하여 검색 결과를 3단계로 평가:
Correct: 검색 문서가 질문에 대한 답을 포함
Incorrect: 검색 문서가 질문과 무관
Ambiguous: 부분적으로 관련되지만 불충분
판단 기준: 검색 문서 전체의 신뢰도 점수
모든 문서의 점수 > 상한 → Correct
모든 문서의 점수 < 하한 → Incorrect
중간 → Ambiguous
Case 1: Correct
→ 지식 정제(Knowledge Refinement)
→ 문서에서 핵심 정보만 추출, 노이즈 제거
→ 정제된 정보로 생성
Case 2: Incorrect
→ 검색 결과 폐기
→ 웹 검색(Google/Bing)으로 전환
→ 웹 결과에서 관련 정보 추출 후 생성
Case 3: Ambiguous
→ 두 경로를 모두 실행
→ 원래 검색 결과의 정제 + 웹 검색 보완
→ 두 결과를 결합하여 생성
검색된 문서에서 노이즈 제거:
1. 문서를 문장 단위로 분할
2. 각 문장의 질문 관련도 점수 계산
3. 관련도 낮은 문장 필터링
4. 남은 문장만으로 컨텍스트 구성
효과:
원본 문서: 500 단어 (30%만 관련)
정제 후: 150 단어 (90% 관련)
→ LLM이 핵심 정보에만 집중
| 방법 | PopQA | TriviaQA | Biography |
|---|---|---|---|
| No Retrieval | 21.3% | 55.7% | — |
| Standard RAG | 36.9% | 58.4% | 71.2 |
| Self-RAG | 54.9% | 63.2% | 74.1 |
| CRAG | 59.3% | 65.8% | 77.3 |
→ Self-RAG 대비 4-5%p 추가 향상
검색 품질이 높을 때 (관련 문서 존재):
Standard RAG: 72.1%
CRAG: 74.5% (지식 정제로 소폭 향상)
검색 품질이 낮을 때 (무관 문서만 검색):
Standard RAG: 12.3% ← 환각 심각
CRAG: 48.7% ← 웹 검색 전환으로 대폭 구제
→ CRAG의 핵심 가치: 검색 실패 시의 안전망
| 변형 | PopQA |
|---|---|
| CRAG (full) | 59.3% |
| − 웹 검색 전환 제거 | 51.2% |
| − 지식 정제 제거 | 55.7% |
| − 검색 평가기 제거 (항상 Correct 가정) | 38.1% |
→ 검색 평가기가 가장 핵심 — "검색 결과를 의심하는 것"이 핵심 기여
CRAG의 핵심 교훈은 "검색을 신뢰하지 마라"이다. 기존 RAG는 검색 결과를 무조건 사용했지만, 현실에서 검색 정확도는 60-80% 수준이다. 나머지 20-40%의 경우에 환각이 발생한다. CRAG는 이 "나머지"를 처리하는 안전망이다.
Self-RAG + CRAG의 조합이 가장 강력한 RAG 패턴이라고 생각한다:
1. Self-RAG: "이 질문에 검색이 필요한가?" → 불필요한 검색 방지
2. CRAG: "검색 결과가 충분한가?" → 부족하면 웹 검색 보완
3. Self-RAG: "생성 결과가 근거에 기반하는가?" → 환각 검증
이 3단계 파이프라인이 현재 프로덕션 RAG의 best practice에 가장 가깝다.
관련 논문: Self-RAG, Adaptive-RAG, Active RAG, FLARE