RAG 기반 QA 시스템에서 생성된 답변을 채점하는 기준은 "단순한 문자열 유사도만으로는 부족하며, 다층적인 평가 항목을 설정하는 것이 바람직하다"고 한다.
GPT-4.0을 사용하는 경우, 아래와 같은 다단계 채점 기준 체계를 지피티로부터 제공받았다.
항목 | 설명 | 채점 방식 |
---|---|---|
1️⃣ 정답성(정확도) | 답변이 문서의 정보와 의미적으로 일치하는가? | ✅ 기준 문장 존재 여부 + 의미 일치 여부 |
2️⃣ 근거 명확성 | 답변에 사용된 근거 문장이 원문에 명확히 존재하는가? | ✅ 인용 근거가 존재하고 정확한가 |
3️⃣ 유추/외삽 여부 | 문서에 없는 내용을 유추하거나 상상한 흔적이 있는가? | ❌ 발생 시 감점 또는 0점 |
4️⃣ 표현의 일관성 | 질문과 같은 표현 방식, 용어 체계를 사용했는가? | ✅ 용어, 어순, 개념이 일관적인가 |
5️⃣ 유의어 처리 적절성 | 유사 표현(예: "근무기간" vs "연수기간")을 올바르게 인식했는가? | ✅ 문맥적으로 동등하게 처리했는가 |
6️⃣ 불확실성 처리 | 근거 부족 시 "답변을 찾을 수 없습니다."로 명확하게 응답했는가? | ✅ No Hallucination 발생 여부 |
7️⃣ 출력 형식 준수 | 요구된 포맷(예: 단계별 구조)을 지켰는가? | ✅ 형식 일치 여부 |
: 단순 유사도가 아니라, 질문과 문서 내용이 의미적으로 일치하는가를 판단
"6개월 동안 교육을 받는다"
vs "3개월 인턴 기간"
→ 유사도는 높을 수 있어도 의미는 다름."근무기간은 6개월"
vs "연수기간은 총 6개월"
→ 의미는 같음, 유의어 인식 포함.: 모델의 답변이 어떤 문장에서 추출/도출되었는지 명확히 추적
점수 | 기준 |
---|---|
5점 | 정답 + 명확한 근거 + 구조 준수 + 유의어 처리 정확 + 외삽 없음 |
4점 | 정답 + 근거 있음 + 사소한 구조 오류 |
3점 | 근거는 있으나 해석 오류 또는 표현 불일치 |
2점 | 외삽이 감지되거나 문서와 의미 불일치 |
1점 | 답변 있음 + 의미 불일치 + 근거 없음 |
0점 | 완전히 틀렸거나 근거 없는 유추 기반 답변 |
예시 프롬프트:
아래는 원문, 질문, 모델의 답변입니다. 원문에 기반해 답변이 정확한지, 근거가 충분한지, 과도한 유추는 없는지 평가하고 점수를 주세요. ...
"문서와의 유사도"는 기본이지만, 최종 채점 기준은 반드시 다음을 고려해야 한다:
- 의미 기반 정답성
- 근거 기반 정당성
- 외삽 방지 여부
- 포맷과 표현의 일관성