GPT-3, ChatGPT, GPT-4의 차이점을 간단히 알아봤다.
GPT-3는 프롬프트 형식으로 입력을 줘야 답변을 얻을 수 있었다.
Next Token Prediction 방식으로 한 토큰씩 생성하고 loss를 계산하며 문장을 완성하도록 학습했기 때문이다.
그리고 프롬프트 입력 최대 길이(Maximum Context Length)는 4k다.
ChatGPT는 RLHF(Reinforcement Learning from Human Feedback), 즉 InstructGPT과 같이 강화학습을 사용했다.
다음과 같이 여러 방식으로 학습을 진행했다.
1. GPT-3과 같이 대용량 데이터 사전학습 + 사람이 만든 프롬프트 데이터로 fine-tuning
2. 사람 답변 문장 데이터셋으로 사전 학습 모델을 지도학습.
3. 모델이 생성한 문장에 점수를 매기는 보상 모델 학습. 사람이 모델이 출력한 k개의 문장에 랭킹을 매기고, 모델은 두 문장을 비교해 학습한다.
4. 보상 모델로 얻은 점수를 기반으로 더 높은 점수를 받도록 강화학습한다.
GPT-3과의 차이점은 다음과 같다.
Reference
https://tech.kakaoenterprise.com/181
https://moon-walker.medium.com/%EB%A6%AC%EB%B7%B0-3%EB%85%84%EB%A7%8C%EC%9D%98-%ED%99%94%EB%A0%A4%ED%95%9C-%EC%BB%B4%EB%B0%B1-gpt-4-9c3f06ecabdc