LLM Day 20 - Evaluation of Retrieval-Augmented Generation

Soyee Sung·2025년 3월 1일

LLM

목록 보기

25/34

1. 개요 (Introduction)

Retrieval-Augmented Generation (RAG)은 LLM(대규모 언어 모델)의 성능을 외부 정보 검색을 통해 향상시키는 기술. 기존 LLM이 사실과 다를 수 있는 응답을 생성하는 문제(환각, Hallucination)를 해결하기 위해 등장. 하지만, RAG 시스템의 평가(Evaluation)는 기존 방법과 다르게 복잡한 문제를 가짐. 이를 해결하기 위해 Auepora(A Unified Evaluation Process of RAG)를 제안하여 평가 방법을 정리.

2. RAG 시스템의 구조

RAG는 크게 검색(Retrieval)과 생성(Generation) 두 개의 구성 요소로 나뉨.

검색 (Retrieval)

외부 데이터베이스에서 관련 정보를 찾아오는 단계.
두 가지 방식:
Sparse Retrieval (TF-IDF, BM25 등 키워드 기반)
Dense Retrieval (BERT 기반 임베딩)
검색된 문서를 평가하는 방법이 필요함 (정확성, 적절성 등).

생성 (Generation)

검색된 정보를 바탕으로 답변을 생성.
프롬프트 엔지니어링 기법(CoT, ToT, RaR 등)으로 성능 향상 가능.
생성된 결과를 평가하는 방법이 필요함 (정확성, 신뢰성 등).

3. RAG 시스템 평가의 어려움

RAG 시스템의 평가가 어려운 이유:

검색과 생성이 독립적으로 평가되기 어려움 (검색이 잘못되면 생성도 잘못됨).
정확성(Accuracy) 외에도 일관성(Faithfulness), 다양성(Diversity) 등 다양한 평가 기준이 필요.
실시간 변화하는 데이터 (예: 뉴스, 의료 정보)를 얼마나 잘 반영하는지 평가하는 것도 중요.

4. Auepora: RAG 평가 프레임워크

논문에서는 RAG 평가를 위한 Auepora 프레임워크를 제안.

✔ What to Evaluate? (무엇을 평가할 것인가?)

검색 정확성 (검색한 문서가 적절한가?)
생성된 응답의 신뢰성 (검색한 정보와 일치하는가?)

✔ How to Evaluate? (어떻게 평가할 것인가?)

기존 벤치마크 데이터셋 활용 (NQ, FEVER, BEIR 등)
새로운 벤치마크 데이터셋 구축

✔ How to Measure? (어떻게 측정할 것인가?)

검색 평가 (Precision, Recall, MRR, MAP)
생성 평가 (ROUGE, BLEU, BERTScore, LLM Judge)
추가적인 요소 평가 (Latency, Diversity, Robustness 등)

5. 최신 벤치마크 분석

다양한 RAG 평가 벤치마크(RAGAs, RECALL, ARES, RGB 등)를 비교.
각각의 강점과 한계를 분석하여 종합적인 평가 방법을 제시.

6. 논문의 결론 및 향후 연구 방향

RAG 평가의 복잡성을 해결하기 위해 Auepora 프레임워크를 제안.
기존 벤치마크의 한계를 지적하고, 보다 종합적인 평가 지표를 제안.
향후 연구에서는 실시간 정보 처리 능력, 다양한 프롬프트 기법 평가, 사용자 선호도 반영한 평가 등이 필요.

정리

이 논문은 RAG 시스템의 평가가 기존 LLM보다 훨씬 복잡하다는 점을 지적하고, 이를 해결하기 위한 Auepora 프레임워크를 제안

Soyee Sung

이전 포스트

LLM Day 19 - RAG와 데이터

다음 포스트