친구들, GPT-4가 도대체 무엇인가? 어떻게 생겼는가? 기술적으로 궁금하신 분들 많으셨죠? 그런 분들을 위해 모두의 연구소에서 잘 정리해서 공유합니다!!
OpenAI가 GPT-4 모델을 출시하면서, 성능 지표와 실험 결과가 포함된 technical report를 함께 공개했습니다. 바쁘신 분들 위하여 요점 정리하면, 다음과 같습니다!
GPT-4 모델의 확장 정책
OpenAI가 GPT-4 프로젝트를 진행하면서 중점적으로 생각했던 부분이 바로 scaling이 잘 되는 모델을 구현하는 것이었다고 합니다. 학습 시간이 GPT-4의 1/1000, 1/10000인 작은 모델의 성능 데이터로도 GPT-4의 성능이 정확하게 예측되도록 하는 것입니다.
GPT-4의 성능
OpenAI가 GPT와 같은 언어 모델을 개발할 때 중요하게 생각하는 목표 중 하나는 더 복잡한 상황에서 자연어 텍스트를 이해하고 생성하는 것이라고 합니다. 시험 문제들은 객관식과 주관식 문항 모두를 포함하고 있고, 필요한 경우 이미지도 input에 함께 넣었습니다. 실험에 사용되었던 전문적, 학술적인 시험 대부분에서 GPT-4는 사람과 비슷한 점수를 얻었다고 합니다. 특히, 미국 변호사 시험에서는 상위 10%의 성적을 기록했다고 합니다. 이는 하위 10%를 기록했던 ChatGPT보다도 뛰어난 성능입니다.
GPT-4의 한계
GPT-4는 이전 버전의 GPT 모델들과 비슷한 한계점을 가진다고 하는데요, 대표적으로 hallucination(환각)이라고 불리는 현상이 있습니다. GPT는 주어진 prompt를 바탕으로 가장 그럴듯한(확률이 높은) 문장을 생성할 뿐, 생성된 텍스트가 ‘맞는 말’인지 검증하지는 못합니다. 그래서 틀린 사실을 이야기하는 경우가 자주 있는데, 이런 현상이 바로 hallucination입니다.
GPT-4의 위험성, 그리고 이를 완화하기 위한 노력
GPT-4가 전문적인 텍스트를 더 잘 이해하게 되면서, ‘전문 지식이 있다면 위험한 답변을 줄 수 있는 prompt’를 구별하는 데 전문가들의 도움이 필요했습니다. OpenAI는 각 분야의 전문가들에게 테스트를 요청해서 모델을 수정했다고 합니다.