[deep daiv.] 딥다이브 WIL #2 InstructGPT + GPT-3 + ChatGPT

수빈·2023년 2월 7일
1

딥다이브 WIL

목록 보기
2/8

1)

https://jrodthoughts.medium.com/instructgpt-is-one-of-the-models-behidn-the-magic-of-chatgpt-59813dd8aabc

(번역)

InstructGPT is One of the Models Behind the Magic of ChatGPT

A fine tuned version of GPT-3 that is more efficient at following instructions

요즘 인터넷은 새로 나온 ChatGPT로 인해 난리가 났다. ChatGPT는 GPT3.5와 함께 공개된 모델들 중 하나인데, GPT-4 모델에서 예상되는 기능들을 어느정도 갖추고 있다. ChatGPT가 이전의 모델들과 다른 가장 중요한 점들 중 하나는 지시가 주어졌을 때 그것을 따를 수 있는 능력이다. 이 능력은 작년 초에 OpenAI가 공개한 InstructGPT라는 모델로 인해 가능하다.

GPT-3와 같은 Large Language Models(LLM)들은 사용자가 원하는 것을 수행하기 위해 내리는 지시 등을 따르도록 사용된다. 하지만 꽤 자주, 이 모델들은 input으로 주어진 지시와는 전혀 상관없는 유해하거나 진정성이 없는 output들을 내놓는다. 이것의 이유로는, GPT-3와 같은 모델들은 특정한 task를 수행하기보다는 문장에서의 다음 단어를 예측하도록 train되었다는 점을 들 수 있다. 바로 이 문제점이 OpenAI가 InstructGPT를 통해 개선하고자 했던 점이다 -> InstructGPT는 GPT-3 language capability를 여전히 가지고 있으나 지시를 따를 수 있는 능력을 훨씬 더 발전시킨 large language model이다.

어느 정도 예상했겠지만, InstructGPT는 GPT-3를 fine-tuning한 결과물이다. 더 자세하게는, OpenAI는 주어지는 지시문들을 GPT-3가 더 잘 이해하도록 fine-tuning하는 과정에서 <인간 피드백을 이용한 강화학습>이라는 기술을 사용하였다. 이 기술은 더 정확한 보상 시그널을 생성하기 위해 인간의 패드백을 사용한다.
OpenAI는 OpenAI prompt를 통해 수집된, 이 모델로부터 받고 싶은 output들을 설명한 written submission들을 바탕으로 하는 지시문들을 각각 labeling하는 데 crowdsourced team을 동원하였다. 그 다음에는, OpenAI는 이 dataset을 사용해 RM, 즉 보상 모델을 train하여, crowdsource force가 원하는 보상출력이 무엇일지 알아내도록 했다. 결과적으로, 이 보상모델은 GPT-3 policy를 PPO(Proximal policy optimization) 알고리즘을 사용하여 최적화하기 위한 보상 함수로 사용된다.

OpenAI는 GPT-3와 InstructGPT에 같은 prompt들을 준 후, InstructGPT를 GPT-3에서 얻어진 출력들과 비교하는 방식으로 평가하였다. 이를 통해 InstructGPT가 GPT-3보다 훨씬 더 성능이 뛰어나다는 결과가 나왔다.

InstructGPT가 내놓는 출력들은 GPT-3에 비해 훨씬 더 문맥적으로 뛰어나고 글로써의 가치가 높다. InstructGPT는 인간의 근본적인 의도와 잘 맞아떨어지게 결과물을 출력하는 AI 모델들을 build하는 데 있어 엄청난 발전을 보여주고 있다. 이 기술은 OpenAI API에서 da-vinci 모델의 일부분이다.

2)

https://velog.io/@mmodestaa/InstructGPT-ChatGPT

InstructGPT와 ChatGPT 각각에 관해 순차적으로 설명해주는 글. 학습방법, 장점, 개선점, 한계점 등에 대해 설명되어 있다.

3)

https://jiho-ml.com/weekly-nlp-53/

GPT-3에 Reinforcement learning을 적용시켜 InstructGPT를 만든 과정에 대해 더 자세하게 나와있다.

profile
CS공부 하고 있는 수빈입니다.

1개의 댓글

comment-user-thumbnail
2023년 2월 7일

잘읽었습니다

답글 달기