GPT

yoon__0_0·2024년 5월 31일

이어드림 수업

목록 보기

51/103

Chat GPT란?

Generative Pre-trained Transformer
Open AI 에서 개발한 자연어 생성 모델로, 텍스트가 주어지면 다음 단어를 예측하는 태스크를 학습하는 모델
Transformer 모델을 기반으로 개발됨.
성능은 방대한 파라미터와 데이터 셋에 따라 좌우됨.
메모리를 가지고 있어서 사용자로부터 입력 받은 문장들을 기억하고, 사전 학습된 모델과 이전의 대화를 기반으로 사용자와 의사소통이 가능한 모델
자연어 모델에서 활용하지 않던 강화학습을 활용하여 추가적 학습 수행함 : RLHF

RLHF

Reinforcement Learning from Human Feedback
강화학습은 환경과 에이전트의 상호작용을 통해 에이전트가 학습되는 학습 방법론
에이전트가 현재 상태 관찰, 행동 수행, 행동에 따른 보상을 받아서 누적 보상을 최대로 하기 위한 행동 정책 학습
여기서 보상을 사람이 직접준다면 이게 RLHF

신윤재입니다

이전 포스트

docker image 실습

다음 포스트

Docker file

0개의 댓글