RAG(Retrieval-Augmented Generation) 평가

HanJu Han·2024년 11월 27일

RAG

목록 보기
9/9
  1. RAG 평가의 필요성
    예를 들어, 의료 분야에서 "코로나19의 초기 증상은 무엇인가요?"라는 질문이 들어왔다고 가정해보겠습니다. RAG 시스템은:
  • 관련 의학 문서를 검색하고
  • 검색된 정보를 바탕으로 답변을 생성합니다

이때 시스템의 성능을 세 가지 측면에서 평가해야 합니다:

  1. 평가 기준

a) 신뢰성(Faithfulness)

  • 의미: "생성된 답변이 검색된 문서 내용과 일치하는가?"
  • 예시: 시스템이 "발열, 기침, 피로감"이라고 답변했다면, 이 내용이 실제로 검색된 의학 문서에 있어야 합니다.
  • 반례: 검색된 문서에 없는 "복통, 설사"를 답변에 포함시키면 신뢰성이 낮아집니다.

b) 답변 관련성(Answer Relevancy)

  • 의미: "생성된 답변이 질문의 의도를 정확히 반영하는가?"
  • 예시: "코로나19의 초기 증상"에 대해 물었는데, 실제로 초기 증상만 답변했다면 관련성이 높습니다.
  • 반례: 질문과 무관한 "코로나19의 장기 후유증"을 답변하면 관련성이 낮아집니다.

c) 맥락 관련성(Context Relevancy)

  • 의미: "검색된 문서가 질문과 얼마나 관련있는가?"
  • 예시: "WHO의 코로나19 증상 가이드라인" 문서를 검색했다면 맥락 관련성이 높습니다.
  • 반례: "코로나19 경제 영향" 관련 문서를 검색했다면 맥락 관련성이 낮습니다.
  1. 실제 평가 프로세스
    다음과 같은 테스트 데이터셋이 필요합니다:
질문(Question): "코로나19의 초기 증상은?"
검색된 문서(Context): "WHO 보고서에 따르면, 코로나19의 가장 흔한 초기 증상은 발열, 마른기침, 피로감입니다."
생성된 답변(Answer): "코로나19의 대표적인 초기 증상은 발열, 마른기침, 그리고 피로감입니다."
실제 정답(Ground Truth): "코로나19의 초기 증상은 발열, 마른기침, 피로감입니다."

이러한 데이터를 바탕으로 각 기준별 점수를 매깁니다:

  • 신뢰성: 답변이 검색 문서의 내용과 일치 (높은 점수)
  • 답변 관련성: 초기 증상에 대해 정확히 답변 (높은 점수)
  • 맥락 관련성: WHO 공식 보고서를 참고 (높은 점수)

이러한 평가는 OpenAI API 등의 LLM을 활용해 자동화할 수 있으며, Ragas나 Trulens-Eval 같은 프레임워크를 통해 체계적으로 수행할 수 있습니다.


실제 평가

  1. 자동 평가 시스템(LLM 기반)

예시) "코로나19의 초기 증상은?"이라는 질문의 평가 과정:

신뢰성 점수 측정:

# 평가용 LLM에게 다음과 같이 질문합니다:
입력: 
- 검색된 문서: "WHO 보고서에 따르면, 코로나19의 가장 흔한 초기 증상은 발열, 마른기침, 피로감입니다."
- 시스템 답변: "코로나19의 대표적인 초기 증상은 발열, 마른기침, 그리고 피로감입니다."

질문: "시스템의 답변이 검색된 문서의 내용만을 사용했나요? 1-10점으로 평가해주세요."

# LLM의 평가:
점수: 9/10
이유: 문서의 내용을 거의 그대로 반영했으며, 추가 정보 없이 문서 내용만 사용함
  1. 인간 평가자 시스템

전문가 평가 예시:

평가자: 의학 전문의 3명

평가 기준:
- 정확성: 의학적 사실과 일치하는가? (1-5점)
- 완성도: 필요한 정보를 모두 포함하는가? (1-5점)
- 명확성: 환자가 이해하기 쉬운가? (1-5점)

최종 점수 = (전문의들의 평균 점수 합계) / 3
  1. 하이브리드 평가 시스템 (주로 사용)

실제 현장 예시:

1단계: LLM 자동 평가 (70%)
- 신뢰성: 8/10
- 답변 관련성: 9/10
- 맥락 관련성: 9/10

2단계: 전문가 검증 (30%)
- 의학적 정확성: 4.5/5
- 실용성: 4/5

최종 점수 = (자동평가 x 0.7) + (전문가평가 x 0.3)

중요한 점:

  • LLM은 초기 대량 평가를 수행
  • 전문가는 중요한 샘플을 검증
  • 두 시스템의 점수가 크게 차이나면 재검토
  • 평가 기준은 분야별로 다르게 설정 (의료, 법률, 일반상식 등)

예를 들어, 법률 분야라면:

법률 답변 평가 기준:
- 법적 정확성 (40%)
- 최신 법령 반영 (30%)
- 실무 적용 가능성 (30%)

평가자:
- 1차: LLM 자동 평가
- 2차: 변호사 검토
- 3차: 실무 담당자 확인

이런 단계적이고 복합적인 평가 시스템을 통해 RAG의 성능을 객관적으로 측정하고 개선점을 찾아낼 수 있습니다.

profile
시리즈를 기반으로 작성하였습니다.

0개의 댓글