Part2) Machine Learning-3

ehekaanldk·2025년 1월 6일

Aimers

aimers

목록 보기

6/21

Recent Progress of Large Language Models

open AI의 GPT와 함께 LLM에 대해서 알아보자.

1. 초거대 언어 모델의 발전 방향

Open AI의 GPT3는 Generative Pre-trained Transformer의 약자로

예전의 인공지능은 하나의 테스크에 집중된 인공지능으로 요약이나 번역 등이 있다.
GPT는 일반 인공지능을 다루는 것이 목표가 되어 언어 이해와 생성에 관련된 어떤 질문을 하더라고 응답을 내게 된다.

당시의 언어 모델은 너도 나도 트랜스포머를 사용하는 것이고, 누가 더 트랜스포머를 크게 만드는 것에 중점을 두던 시절이다.

딥러닝 알고리즘의 발전 방향은 간단한 모델을 몇개 더 이어 붙여서 알고리즘의 성능을 올리자는 아이디어가 성행하던 시절이다. ( 새로운 모델을 개발하는 것이 아닌 )

기술적인 진입장벽이 높지 않았다.

GPT 3를 기점으로 크게 변화하게 된다. 마이크로소프트 이외에는 상업적으로 지피티 3를 사용할 수 없다.

Instruct GPT는 GPT 3.5로 GPT 3의 언어 이해는 잘 수행하는 점에서 사람의 지시가 주어졌을 때 유용하면서 안전하게 응답할 수 있도록 개발된 모델이다.

2. RLHF

GPT 3에서 Instruct GPT로 발전할 수 있었던 핵심적인 기술은 RLHF이다. 사람의 피드백으로부터 강화학습을 한다는 개념이다.

초거대 언어모델을 만들기 위해서는 해당 부분을 잘 구현하는 것이 핵심기술이 된다.

질문에 대해서 어떻게 응답을 해야한다는 레이블을 통해서 감독학습을 진행한다.
어느정도 응답 수준이 된다면, 하나의 질문에 대해서 여러개의 응답을 내도록 한다.
사람이 응답들에 랭킹을 매겨서 사람이 선호하는 응답을 만들 수 있도록 학습이 된다.

Step1. Supervised fine-tuning
언어 이해만 가능하고 사람의 지시를 이행할 수 있는 능력은 없는 GPT3를 가져와서 어느정도 응답을 할 수 있도록 사람을 통해서 학습을 한다. 각각의 질문에 대해서 어떻게 응답을 할지 사람 label을 부여한다.

Step2. Reward model training
GPT3가 어느 정도 사람의 지시에 대해 응답을 생성할 수 있는 수준이 된다. RM으로 reward model을 만든다. 스텝1 이후에 응답을 하나만 만들도록 하지 않고 4가지 응답을 만들도록 시킨다. 사람 Labelier가 붙어서 4개의 응답 중에 뭐가 더 선호되는지 랭킹을 매긴다.

질문이 나왔을 때, 질문과 응답이 주어졌을 때 ranking score를 예측하는 것이다. Ranking score는 사람이 선호를 많이 할 수록 score가 높아지도록 한다.

Step3. RL via PPO
새로운 prompt를 준다. Instruct GPT는 step1을 통해서 fine-tuning된 모델이다.
해당 모델이 새로운 질문(State)에 대해서 응답(action)을 ranking score(Reward)를 강화학습에 대한 보상으로 이어져서 Reward를 Maximize하도록 자기가 State의 action을 선택하게 된다.

PPO는 Open AI에서 만든 유명한 강화학습 알고리즘이다.

3. ChatGPT

Instruct GPT에 Conversational UI로 대화 유저인터페이스를 붙인 형태이다.

Instruct GPT를 사용하기 위해서는 코드를 작성하여 API call를 사용해야 했는데, Conversational UI를 통해서 MAU(monthly active user)에 두달만에 도달하였다.

ChatGPT의 초창기에는 사용자가 인위적인 거짓말을 하면서 이에 대해 negative feedback을 꺼려했지만 버전이 업되면서 이러한 점이 개선되면서 사실성을 따지고 이에 대해서 설명을 이어가게 되었다.

4. GPT-4

두가지 milestone에 집중을 하게 되었다.

multimodal
텍스트 외에도 이미지 등 다양한 modality로 보내는 것을 이해할 수 있다. 이미지와 텍스트 입력에 대해서 적잘한 응답의 텍스트를 낼 수 있다.
사람이 보는 시험에서 아주 잘 한다는 점
직업 시험들과 같이 사람을 위해 정의된 시험들에 대해서 성능이 좋아졌다. 문제 은행식 출제의 경우에 정복이 쉬운 점이 있다.

Open AI는 이제 기술적인 디테일을 공개하지 않는다. 또한 Context Length는 응답을 생성할 때 앞에 나누 대화 중에 몇 개의 토큰까지를 고려해서 응답을 내는가를 고려한다.

최근에는 multilingual로 하나의 모델이 다양한 언어에 대해서 잘하는 것을 말한다.

GPT-4의 단점에 대해서 알아보자

없는 사실을 만들어내는 Hallucination이 발생한다.
확률 모델이기 때문에 쉬운 질문에도 실패하는 경우가 발생한다.
질문을 어떻게 하느냐에 따라서 응답의 성능이 달라진다. => prompt engineering
사람을 통해서 label을 받아오기 때문에 bias가 존재한다.
지식 업데이트가 자주 일어나지 않는다.
경험을 통해서 배우지 않는다. 사람과의 상호작용을 통해서 배우는 점에서 개인정보 때문에 이를 반영하지 않는다.
검증 과정을 거치지 않는다.

5. LLM

다른 경쟁 모델에 대해서 알아보자.

Anthropic AI 에서 개발한 Claude (ChatGPT와 유사)
Google의 Gemini (구글 검색과 연결, 따로 앱x)
Google Pathway LM 시스템인 PaLM (5,000억 parameter, 구글 클라우드 API와 함께 사용)
Meta의 OPT & LLaMA (open 시켜서 자기만의 언어모델 개발 가능, 언어 모델 활성화)
Self-instruct tuning on LLaMA : Instruct 학습 데이터를 사람이 지시하고 그 지시를 이행한 데이터 쌍을 GPT를 통해서 구해서 LLaMA를학습시킨다. Ex) vincuna(모델 개발에 큰 비용이 들지 않았음)

정리)

데이터 중심의 인공지능이 되면서 model architecture 자체는 transformer decoder 기반의 모델을 크게 만드는 식으로 진행된다.
상용 LLM과 open soure LLM의 등장으로 빠르게 개발되고 있다.
사용자 니즈에 따라 특화된 모델이 계속 나오게 된다.
API를 사용할 것인지 in-house LLM을 사용할 것인지 고려해야 한다.

ehekaanldk

Hello

이전 포스트

Part2) Machine Learning-2

다음 포스트