BLEU - 문장 구조 유사도
생성된 문장이 원문 문장의 단어 배열과 어순이 얼마나 정확하게 모방했는지 측정
어순이 다르면 낮은 점수
ROUGE-L - 핵심 어두 포함률
원문 문장과 생성 문장에서 가장 긴 공통 부분 문자열(Longest Common Subsequence)를 기반으로 핵심 단어나 구절이 얼마나 일치하는지 평가
핵심 표현이 포함되어 있으면 높은 점수
BERT Score - 의미적 유사도
문장 전체를 BERT 임베딩 공간에 매핑한 후 의미적으로 얼마나 유사한지 정량화
단어의 형태보다 의미론적 일치에 중점
UniEval - 표면 단어 일치율
원문 무장과 생성 뭊아에서 중복된 단어의 비율을 단순히 계산
구조나 의미보다는 공통 단어의 출현 여부에 관점
많은 단어가 겹칠수록 높은 점수
Document Relevance : 문서 관령성
질문에 비해 정답이 얼마나 고나련 있는 정봄나 담고 있는지 평가
의미론적 정보의 중점
Answer Faithfulness : 사실 충실도
생성된 답이 제시된 사실에 얼마나 충실하게 기반했는지 평가
논리적 정보에 중점
Answer Helpfulness : 도움 정도
답변이 질문에 대해 얼마나 유용하고 실질적인 도움을 주는지 평가
잘모르겠다 라는 응답에 낮은 점수
Answer Correctness : 정답 정확도
생성된 답이 원문 정답과 얼마나 일치하는지 평가
팩트 체크