JSON 파일을 사용해 모델을 파인튜닝할 수 있다. 예제는 OpenAI의 GPT 모델을 활용하여 모델이 특정 도메인이나 작업에서 더 나은 성능을 발휘하도록 학습시키도록 한다. 파인튜닝은 고품질의 데이터셋과 적절한 학습 파라미터 설정이 중요하다. 학습 후에는 모델이 목표 작업을 잘 수행했는지 평가해야 한다.
파인튜닝은 모델이 학습할 데이터셋이 필요한데, JSON 형식으로 준비한다. 일반적인 구조는 아래와 같다 :
[
{"prompt": "질문이나 요청", "completion": "모델이 생성할 답변이나 결과"},
{"prompt": "다른 질문이나 요청", "completion": "다른 답변이나 결과"},
...
]
prompt: 모델에 입력할 데이터로, 질문, 명령어, 상황 설명 등으로 구성completion: 모델이 생성할 목표 출력 데이터로, prompt에 따라 학습하는 응답데이터셋의 텍스트는 오류가 없고, 일관성 있는지 검토해야한다. 데이터셋의 품질과 파인 파인튜닝의 결과는 비례하기 때문에 정확하고 명확한 데이터가 필요하다.
검토한 데이터는 JSON파일로 생성하며, 일정한 구조를 가진 양식을 참고한다.
모델 파인튜닝 단계는 아래와 같다.
openai api fine_tunes.create -t <training_file_id> -m <model_name> --n_epochs <epochs>