프롬프트 작성 채점 기준

wldbs._.·2025년 7월 28일

RAG

목록 보기

5/22

RAG 기반 QA 시스템에서 생성된 답변을 채점하는 기준은 "단순한 문자열 유사도만으로는 부족하며, 다층적인 평가 항목을 설정하는 것이 바람직하다"고 한다.

GPT-4.0을 사용하는 경우, 아래와 같은 다단계 채점 기준 체계를 지피티로부터 제공받았다.

항목	설명	채점 방식
1️⃣ 정답성(정확도)	답변이 문서의 정보와 의미적으로 일치하는가?	✅ 기준 문장 존재 여부 + 의미 일치 여부
2️⃣ 근거 명확성	답변에 사용된 근거 문장이 원문에 명확히 존재하는가?	✅ 인용 근거가 존재하고 정확한가
3️⃣ 유추/외삽 여부	문서에 없는 내용을 유추하거나 상상한 흔적이 있는가?	❌ 발생 시 감점 또는 0점
4️⃣ 표현의 일관성	질문과 같은 표현 방식, 용어 체계를 사용했는가?	✅ 용어, 어순, 개념이 일관적인가
5️⃣ 유의어 처리 적절성	유사 표현(예: "근무기간" vs "연수기간")을 올바르게 인식했는가?	✅ 문맥적으로 동등하게 처리했는가
6️⃣ 불확실성 처리	근거 부족 시 "답변을 찾을 수 없습니다."로 명확하게 응답했는가?	✅ No Hallucination 발생 여부
7️⃣ 출력 형식 준수	요구된 포맷(예: 단계별 구조)을 지켰는가?	✅ 형식 일치 여부

: 단순 유사도가 아니라, 질문과 문서 내용이 의미적으로 일치하는가를 판단

: 모델의 답변이 어떤 문장에서 추출/도출되었는지 명확히 추적

예시 프롬프트:

아래는 원문, 질문, 모델의 답변입니다.
원문에 기반해 답변이 정확한지, 근거가 충분한지, 과도한 유추는 없는지 평가하고 점수를 주세요.
...

"문서와의 유사도"는 기본이지만, 최종 채점 기준은 반드시 다음을 고려해야 한다:

의미 기반 정답성

근거 기반 정당성

외삽 방지 여부

포맷과 표현의 일관성

공부 기록용 & 프로젝트 회고용 24.08.05~ #AI/LLM #RAG