프롬프트 평가

Sirius·2023년 10월 1일

1) 프롬프트 요구사항 명세서

위의 3가지를 정리해 놓을 필요성이 있다.
다양한 다른 케이스에 대해서도 작성해야함

그렇다면 얼마나 많이 수집해야할까?
프롬프트 SW는 이미 학습이 끝난 LLM모델위에서 돌아가는 것이기 때문에 테스트 데이터만 필요하다.(기존의 ML보다 개발주기가 빠른 이유)

Evaluation procedures (or "evals") are useful for optimizing system designs. Good evals are:

Representative of real-world usage (or at least diverse)
Contain many test cases for greater statistical power (see table below for guidelines)
Easy to automate or repeat

DIFFERENCE TO DETECT	SAMPLE SIZE NEEDED FOR 95% CONFIDENCE
30%	~10
10%	~100
3%	~1,000
1%	~10,000

1) 실서비스가 나간뒤 문제 생겨 롤백이 필요한 경우
2) LLM모델이 변경되어 프롬프트 재 탐색이 필요한 경우
3) 변경사항 추적이 필요한 경우

출력 포맷이 변경되는 경우
출력 내용이나 구성이 많이 변경되는 경우

결과를 조금 더 정확하게 출력하도록 개선하는 경우
생성옵션이 변경되는 경우

보통 1이랑 2를 비교해서 성능평가를 한다.
보통 General하게 사용할 툴이 없어서 구글시트에서 정리한다.