이때 시스템의 성능을 세 가지 측면에서 평가해야 합니다:
a) 신뢰성(Faithfulness)
b) 답변 관련성(Answer Relevancy)
c) 맥락 관련성(Context Relevancy)
질문(Question): "코로나19의 초기 증상은?"
검색된 문서(Context): "WHO 보고서에 따르면, 코로나19의 가장 흔한 초기 증상은 발열, 마른기침, 피로감입니다."
생성된 답변(Answer): "코로나19의 대표적인 초기 증상은 발열, 마른기침, 그리고 피로감입니다."
실제 정답(Ground Truth): "코로나19의 초기 증상은 발열, 마른기침, 피로감입니다."
이러한 데이터를 바탕으로 각 기준별 점수를 매깁니다:
이러한 평가는 OpenAI API 등의 LLM을 활용해 자동화할 수 있으며, Ragas나 Trulens-Eval 같은 프레임워크를 통해 체계적으로 수행할 수 있습니다.
예시) "코로나19의 초기 증상은?"이라는 질문의 평가 과정:
신뢰성 점수 측정:
# 평가용 LLM에게 다음과 같이 질문합니다:
입력:
- 검색된 문서: "WHO 보고서에 따르면, 코로나19의 가장 흔한 초기 증상은 발열, 마른기침, 피로감입니다."
- 시스템 답변: "코로나19의 대표적인 초기 증상은 발열, 마른기침, 그리고 피로감입니다."
질문: "시스템의 답변이 검색된 문서의 내용만을 사용했나요? 1-10점으로 평가해주세요."
# LLM의 평가:
점수: 9/10
이유: 문서의 내용을 거의 그대로 반영했으며, 추가 정보 없이 문서 내용만 사용함
전문가 평가 예시:
평가자: 의학 전문의 3명
평가 기준:
- 정확성: 의학적 사실과 일치하는가? (1-5점)
- 완성도: 필요한 정보를 모두 포함하는가? (1-5점)
- 명확성: 환자가 이해하기 쉬운가? (1-5점)
최종 점수 = (전문의들의 평균 점수 합계) / 3
실제 현장 예시:
1단계: LLM 자동 평가 (70%)
- 신뢰성: 8/10
- 답변 관련성: 9/10
- 맥락 관련성: 9/10
2단계: 전문가 검증 (30%)
- 의학적 정확성: 4.5/5
- 실용성: 4/5
최종 점수 = (자동평가 x 0.7) + (전문가평가 x 0.3)
중요한 점:
예를 들어, 법률 분야라면:
법률 답변 평가 기준:
- 법적 정확성 (40%)
- 최신 법령 반영 (30%)
- 실무 적용 가능성 (30%)
평가자:
- 1차: LLM 자동 평가
- 2차: 변호사 검토
- 3차: 실무 담당자 확인
이런 단계적이고 복합적인 평가 시스템을 통해 RAG의 성능을 객관적으로 측정하고 개선점을 찾아낼 수 있습니다.