위의 3가지를 정리해 놓을 필요성이 있다.
다양한 다른 케이스에 대해서도 작성해야함
- 그렇다면 얼마나 많이 수집해야할까?
프롬프트 SW는 이미 학습이 끝난 LLM모델위에서 돌아가는 것이기 때문에 테스트 데이터만 필요하다.(기존의 ML보다 개발주기가 빠른 이유)
1000개 정도가 완전 정확한데 100개면 충분하다는 오픈 AI의 보고서가 있음(GPT)
Evaluation procedures (or "evals") are useful for optimizing system designs. Good evals are:
| DIFFERENCE TO DETECT | SAMPLE SIZE NEEDED FOR 95% CONFIDENCE |
|---|---|
| 30% | ~10 |
| 10% | ~100 |
| 3% | ~1,000 |
| 1% | ~10,000 |
1) 실서비스가 나간뒤 문제 생겨 롤백이 필요한 경우
2) LLM모델이 변경되어 프롬프트 재 탐색이 필요한 경우
3) 변경사항 추적이 필요한 경우
출력 포맷이 변경되는 경우
출력 내용이나 구성이 많이 변경되는 경우
결과를 조금 더 정확하게 출력하도록 개선하는 경우
생성옵션이 변경되는 경우
보통 1이랑 2를 비교해서 성능평가를 한다.
보통 General하게 사용할 툴이 없어서 구글시트에서 정리한다.