Chat GPT란?
- Generative Pre-trained Transformer
- Open AI 에서 개발한 자연어 생성 모델로, 텍스트가 주어지면 다음 단어를 예측하는 태스크를 학습하는 모델
- Transformer 모델을 기반으로 개발됨.
- 성능은 방대한 파라미터와 데이터 셋에 따라 좌우됨.
- 메모리를 가지고 있어서 사용자로부터 입력 받은 문장들을 기억하고, 사전 학습된 모델과 이전의 대화를 기반으로 사용자와 의사소통이 가능한 모델
- 자연어 모델에서 활용하지 않던 강화학습을 활용하여 추가적 학습 수행함 : RLHF
RLHF
- Reinforcement Learning from Human Feedback
- 강화학습은 환경과 에이전트의 상호작용을 통해 에이전트가 학습되는 학습 방법론
- 에이전트가 현재 상태 관찰, 행동 수행, 행동에 따른 보상을 받아서 누적 보상을 최대로 하기 위한 행동 정책 학습
- 여기서 보상을 사람이 직접준다면 이게 RLHF