프롬프트 작성 채점 기준

wldbs._.·2025년 7월 28일
0

AI-LLM

목록 보기
5/21
post-thumbnail

RAG 기반 QA 시스템에서 생성된 답변을 채점하는 기준은 "단순한 문자열 유사도만으로는 부족하며, 다층적인 평가 항목을 설정하는 것이 바람직하다"고 한다.

GPT-4.0을 사용하는 경우, 아래와 같은 다단계 채점 기준 체계를 지피티로부터 제공받았다.


✅ RAG 기반 QA 답변의 채점 기준 (전문가용)

항목설명채점 방식
1️⃣ 정답성(정확도)답변이 문서의 정보와 의미적으로 일치하는가?✅ 기준 문장 존재 여부 + 의미 일치 여부
2️⃣ 근거 명확성답변에 사용된 근거 문장이 원문에 명확히 존재하는가?✅ 인용 근거가 존재하고 정확한가
3️⃣ 유추/외삽 여부문서에 없는 내용을 유추하거나 상상한 흔적이 있는가?❌ 발생 시 감점 또는 0점
4️⃣ 표현의 일관성질문과 같은 표현 방식, 용어 체계를 사용했는가?✅ 용어, 어순, 개념이 일관적인가
5️⃣ 유의어 처리 적절성유사 표현(예: "근무기간" vs "연수기간")을 올바르게 인식했는가?✅ 문맥적으로 동등하게 처리했는가
6️⃣ 불확실성 처리근거 부족 시 "답변을 찾을 수 없습니다."로 명확하게 응답했는가?✅ No Hallucination 발생 여부
7️⃣ 출력 형식 준수요구된 포맷(예: 단계별 구조)을 지켰는가?✅ 형식 일치 여부

🧠 채점 방법론

문서 기반 의미 일치 평가 (정답성 핵심)

: 단순 유사도가 아니라, 질문과 문서 내용이 의미적으로 일치하는가를 판단

  • "6개월 동안 교육을 받는다" vs "3개월 인턴 기간" → 유사도는 높을 수 있어도 의미는 다름.
  • "근무기간은 6개월" vs "연수기간은 총 6개월" → 의미는 같음, 유의어 인식 포함.

근거 기반 매칭 평가 (Traceability)

: 모델의 답변이 어떤 문장에서 추출/도출되었는지 명확히 추적

  • 근거 문장이 없다면 정답이라도 감점.
  • 정답이 틀려도, 근거 문장이 "문제의 요지"를 반영했다면 부분 점수 가능.

🎯 채점 스코어 예시 (5점 만점 척도)

점수기준
5점정답 + 명확한 근거 + 구조 준수 + 유의어 처리 정확 + 외삽 없음
4점정답 + 근거 있음 + 사소한 구조 오류
3점근거는 있으나 해석 오류 또는 표현 불일치
2점외삽이 감지되거나 문서와 의미 불일치
1점답변 있음 + 의미 불일치 + 근거 없음
0점완전히 틀렸거나 근거 없는 유추 기반 답변

🧪 기타: 정량 기반 보조 도구

  • BLEU/ROUGE/BERTScore: 기계적 유사도 평가 (보조적)
  • Embedding Cosine Similarity: 문서 vs 답변 의미 유사도 확인
  • LLM을 이용한 평가 프롬프트: GPT에게 채점 역할을 부여하여 자동화 평가도 가능

예시 프롬프트:

아래는 원문, 질문, 모델의 답변입니다.
원문에 기반해 답변이 정확한지, 근거가 충분한지, 과도한 유추는 없는지 평가하고 점수를 주세요.
...

📌 정리

"문서와의 유사도"는 기본이지만, 최종 채점 기준은 반드시 다음을 고려해야 한다:

  • 의미 기반 정답성
  • 근거 기반 정당성
  • 외삽 방지 여부
  • 포맷과 표현의 일관성
profile
공부 기록용 24.08.05~ #LLM #RAG

0개의 댓글