Machine Learning 개론 - Recent Progress of Large Language Models 강의를 수강하며 공부한 내용을 정리한 포스팅입니다.GPT-3

OpenAI 에서 출시한 알고리즘입니다.FloatTensor32 dtype 을 기준으로 한다면, parameters 크기만 대략 700 GB (...) 입니다. 어마어마한 크기인 것이죠.InstructGPT (GPT-3.5)

GPT-3 의 문제점이라고 한다면, 언어 이해 (language understanding) 는 곧잘 하지만 질문에 대한 답변 생성 능력이 떨어진다는 점이었습니다.InstructGPT 가 등장했습니다.
RLHF (Reinforcement learning from human feedback) 입니다.RLHF 에 대한 상세한 리뷰는 추가 포스팅을 통해 진행하도록 하고, 본 포스팅에서는 간략하게만 짚고 넘어가도록 하겠습니다.
InstructGPT 를 학습하는 과정은 총 세 단계로 나눌 수 있습니다.
1. Supervised fine-tuning (SFT)
GPT-3 모델을 학습합니다.2. Reward model (RM) training
GPT-3 를 이용하여, 하나의 prompt 에 대해 여러 개의 답변을 생성합니다.GPT-3 가 생성한 여러 개의 답변에 순위를 매깁니다.3. Reinforcement learning (RL) via Proximal Policy Optimization (PPO)
GPT-3 모델을 이용하여 답변을 생성합니다.GPT-3 모델을 재학습합니다.GPT-3 모델을 학습하는 과정에 사람의 피드백 (1, 2번 과정) 을 제공함으로써, 사람이 원하는 답변을 생성할 수 있는 능력이 좋아지게 됩니다.
ChatGPT

ChatGPT 는 InstructGPT 에 대화형 User Interface 를 연결한 챗봇입니다. (새로운 방법론이 아닙니다)GPT-4

GPT 들은 text input 을 받아서 text output 을 생성했다고 한다면, GPT-4 의 경우 image input 을 받아서 text output 을 생성하는 것이 가능해졌습니다.multimodal model 이라고 얘기하는데요. GPT-4 역시 multimodal model (image, text) 입니다.GPT-4 부터는 technical report 에 기술적인 세부 내용들 (architecture, model size, etc) 이 작성되지 않았습니다.GPT-3.5 와 비교했을 때, context length 가 8배 가량 증가했습니다. Limitations
GPT 시리즈 모델의 한계점에 대해 알아봅시다.
Bard

Bard 는 구글의 LLM (LaMDA, PaLM, Gemini, etc) 에 대화형 User Interface 를 연결한 챗봇입니다.LLaMA
LLaMA 는 하나의 모델입니다. (챗봇이 아님)LLaMA 의 경우 소스 코드 및 기학습된 모델들을 무료로 공개하고 있습니다.
LLaMA 를 기반으로 LLM 연구를 하기 시작했고, 그 결과 다양한 파생 모델들이 등장하게 되었습니다. (Alpaca, Vicuna, etc)HuggingFace 에서 호스팅하고 있는 LLM Leaderboard 입니다. AI Hub 에서 호스팅하고 있는, 한국어 LLM Leaderboard 입니다.LLaMA 를 기반으로 한 모델들이 상위권을 차지하고 있는 모습입니다.OpenAI 의 GPT 시리즈, Google 의 Bard, Meta 의 LLaMA 에 대해 간략하게 다루었습니다.