
OpenAI 의 GPT-4 의 Technical report 를 보자.
🤔 GPT-4 는 멀티모달이다.
GPT-4, a large multimodal model capable of processing image and text inputs and producing text outputs
텍스트 입력 - 텍스트 생성의 기존 GPT 와 다르게, 이미지 입력이 가능한 멀티모달을 강조했다.
모델 크기와 학습 데이터가 커질수록 모델의 성능은 좋아지고, 학습 데이터가 작아질수록 모델의 성능은 나빠진다. (학습 데이터셋의 크기와 모델 손실의 그래프)

다음과 같이 우하향하는 지수함수이다!
GPT-3 에서 파라미터는 1750억, GPT-4는 그보다 많을 것이지만 공개하지 않았다.
따라서 튜닝을 한 번 하려면 시간, 비용이 굉장히 많이 듬
scaling 이 잘 되는 모델 구현. (작은 모델의 성능 데이터로 GPT-4 성능 정확하게 예측)
작은 모델의 손실 값으로부터 GPT-4 의 성능을 에측. (위의 그래프가 그것을 표현한 것이다.)
GPT-4 의 중요한 목표 중 하나는 더 복잡한 상황에서 텍스트 이해와 선택
성능 테스트를 위해 선택한 방법은 사람을 위해 만들어진 시험 문제를 풀게 하는 것.
객관식과 주관식 모두 포함, 이미지도 input 으로 줌.
사람과 이미 비슷한 점수를 얻음.
미국 변호사 시험에서 상위 10%

시험문제를 푸는 능력은 파라미터 조절보다도 훈련 자체에서 비롯되었을 거라 예상
여러 benchmark 데이터 이용, base GPT-4 의 성능 평가 진행.
텍스트와 이미지 혼합된 프롬프트도 처리 가능

'전문지식이 있다면 위험한 답변을 줄 수 있는 프롬프트'를 구별.