프롬프트 평가

Sirius·2023년 10월 1일

1) 프롬프트 요구사항 명세서

1) 컨텍스트 데이터

2) 인스트럭션(사용자 인풋)

3) 출력 데이터

위의 3가지를 정리해 놓을 필요성이 있다.
다양한 다른 케이스에 대해서도 작성해야함

  • 그렇다면 얼마나 많이 수집해야할까?
    프롬프트 SW는 이미 학습이 끝난 LLM모델위에서 돌아가는 것이기 때문에 테스트 데이터만 필요하다.(기존의 ML보다 개발주기가 빠른 이유)
  • 필요한 테스트 데이터의 양

    1000개 정도가 완전 정확한데 100개면 충분하다는 오픈 AI의 보고서가 있음(GPT)

Evaluation procedures (or "evals") are useful for optimizing system designs. Good evals are:

  • Representative of real-world usage (or at least diverse)
  • Contain many test cases for greater statistical power (see table below for guidelines)
  • Easy to automate or repeat
DIFFERENCE TO DETECTSAMPLE SIZE NEEDED FOR 95% CONFIDENCE
30%~10
10%~100
3%~1,000
1%~10,000

2) 프롬프트 버전 관리

1) 실서비스가 나간뒤 문제 생겨 롤백이 필요한 경우
2) LLM모델이 변경되어 프롬프트 재 탐색이 필요한 경우
3) 변경사항 추적이 필요한 경우

  • X: 메이저버전
  • Y: 마이너버전

1> 메이저 버전 변경

출력 포맷이 변경되는 경우
출력 내용이나 구성이 많이 변경되는 경우

2> 마이너 버전 변경

결과를 조금 더 정확하게 출력하도록 개선하는 경우
생성옵션이 변경되는 경우

3) 생성결과 평가방법

1> 인간평가

2> LLM 평가

보통 1이랑 2를 비교해서 성능평가를 한다.
보통 General하게 사용할 툴이 없어서 구글시트에서 정리한다.

0개의 댓글