GPT

yoon__0_0·2024년 5월 31일
0

이어드림 수업

목록 보기
51/103

Chat GPT란?

  • Generative Pre-trained Transformer
  • Open AI 에서 개발한 자연어 생성 모델로, 텍스트가 주어지면 다음 단어를 예측하는 태스크를 학습하는 모델
  • Transformer 모델을 기반으로 개발됨.
  • 성능은 방대한 파라미터와 데이터 셋에 따라 좌우됨.
  • 메모리를 가지고 있어서 사용자로부터 입력 받은 문장들을 기억하고, 사전 학습된 모델과 이전의 대화를 기반으로 사용자와 의사소통이 가능한 모델
  • 자연어 모델에서 활용하지 않던 강화학습을 활용하여 추가적 학습 수행함 : RLHF

RLHF

  • Reinforcement Learning from Human Feedback
  • 강화학습은 환경과 에이전트의 상호작용을 통해 에이전트가 학습되는 학습 방법론
  • 에이전트가 현재 상태 관찰, 행동 수행, 행동에 따른 보상을 받아서 누적 보상을 최대로 하기 위한 행동 정책 학습
  • 여기서 보상을 사람이 직접준다면 이게 RLHF
profile
신윤재입니다

0개의 댓글