RAG 평가 지표

이우철·2025년 10월 12일
  1. BLEU - 문장 구조 유사도
    생성된 문장이 원문 문장의 단어 배열과 어순이 얼마나 정확하게 모방했는지 측정
    어순이 다르면 낮은 점수

  2. ROUGE-L - 핵심 어두 포함률
    원문 문장과 생성 문장에서 가장 긴 공통 부분 문자열(Longest Common Subsequence)를 기반으로 핵심 단어나 구절이 얼마나 일치하는지 평가
    핵심 표현이 포함되어 있으면 높은 점수

  3. BERT Score - 의미적 유사도
    문장 전체를 BERT 임베딩 공간에 매핑한 후 의미적으로 얼마나 유사한지 정량화
    단어의 형태보다 의미론적 일치에 중점

  • LLM 응답 평가 지표
  1. UniEval - 표면 단어 일치율
    원문 무장과 생성 뭊아에서 중복된 단어의 비율을 단순히 계산
    구조나 의미보다는 공통 단어의 출현 여부에 관점
    많은 단어가 겹칠수록 높은 점수

  2. Document Relevance : 문서 관령성
    질문에 비해 정답이 얼마나 고나련 있는 정봄나 담고 있는지 평가
    의미론적 정보의 중점

  3. Answer Faithfulness : 사실 충실도
    생성된 답이 제시된 사실에 얼마나 충실하게 기반했는지 평가
    논리적 정보에 중점

  4. Answer Helpfulness : 도움 정도
    답변이 질문에 대해 얼마나 유용하고 실질적인 도움을 주는지 평가
    잘모르겠다 라는 응답에 낮은 점수

  5. Answer Correctness : 정답 정확도
    생성된 답이 원문 정답과 얼마나 일치하는지 평가
    팩트 체크

profile
개발 정리 공간 - 업무일때도 있고, 공부일때도 있고...

0개의 댓글