modesta.log
로그인
modesta.log
로그인
Sparks of Artificial General Intelligence: Early experiments with GPT-4
jihyelee
·
2023년 5월 30일
팔로우
1
Language Model
논문리뷰
1
language-model
목록 보기
8/16
Sparks of Artificial General Intelligence: Early experiments with GPT-4
arXiv 2023
들어가며
최근 공개된 GPT-4에 대한 다양한 실험 결과를 정리한 논문
전례없는 규모의 연산과 데이터로 학습한 GPT-4는 이전 AI 모델 대비 일반 지능(general intelligence)에 더욱 근접한 모습을 보임
GPT-4는 특별한 프롬프팅 없이 수학, 코딩, 이미지, 약, 법, 심리학 등 다양한 태스크를 해결할 수 있음
해당 논문에서는
AGI(artificial general intelligence)
라는 용어를 사용했는데, 인간과 유사한 혹은 인간을 뛰어넘는 수준의 추론, 계획, 경험으로부터의 학습 등의 지능을 보여주는 시스템을 지칭
워낙 많은 실험 결과를 공유하는 논문(총 155쪽)이기 때문에, 관심있는 부분 위주로 정리 예정
멀티모달(multimodal), 간학문(interdisciplinary)
다양한 도메인에서 고차원의 숙련성을 보임
다양한 도메인으로부터의 스킬과 개념을 결합해 복잡한 아이디어를 이해하는 능력을 보임
새롭고 창의적인 방식으로 여러 도메인을 합성 가능
비전(vision; image)
이미지 관련(visiual) 태스크에서 단순히 학습 데이터와 유사한 수준을 넘어서 독창적인 능력을 보임
프롬프트를 추가적으로 제시함으로써 이미지 development 가능 (e.g. 피드백 제공)
구체적인 description을 통해 2D 이미지나 3D 모델링 가능
음악
ABC notation을 이용해 어느 정도는 유의미한 음을 만들어낼 수는 있으나, 하모니 생성은 어려움
ABC notation에서 가장 유명한 음들을 인식하거나 생성하는 데에 어려움을 겪음
수학
다른 도메인과 마찬가지로 GPT-4의 수학적 지식은 문맥에 기반(context-dependent)
질문의 단어나 문장이 바뀌면 모델이 보여주는 지식 또한 바뀔 수 있음
창의적 추론: 정답을 유도할 수 있는 옳은 주장을 제대로 선택
기술적 유능성: 관련있는 알고리즘에 대한 높은 수준의 지식을 보여주나, 태스크를 수행할 때 실수도 빈번
비판적 추론: 주장의 각 단계를 비판적으로 확인하는 능력은 부족
학습 데이터가 단순히 순차적(linear) 설명에 불과하기 때문에, 전제나 계산을 비판적으로 평가하는 부분은 학습하지 못함
언어모델이 다음 단어를 예측하는 패러다임으로 학습되었기 때문에 비판적 추론 능력은 더욱 얻기 어려움
세상과의 상호작용
상호작용성이란, 다른 에이전트, 도구, 환경으로부터 얻는 피드백에 대해 반응하고 소통하는 능력을 의미
GPT-4는 검색엔진이나 API 등 외부 도구들을 사용하여 언어모델의 한계를 극복
여전히 프롬프트를 사용하여 어떠한 외부 도구를 사용할 것인지 명시해줘야 한다는 한계 존재
오류 패턴이 반복되기도 함
GPT-4는 자연어를 통해 사용자와 상호작용 또한 가능함 (e.g. 피드백 반영)
GPT-4가 옳지 않은 함수를 생성하였을 때, 오류를 파악하고 고치라는 프롬프트를 통해 오류 수정 가능
믿음, 감정, 욕망, 의도 등 사람의 정신상태를 올바르게 파악하고 추론 가능
혼란스러운 행동 뒤에 숨은 의도와 이에 대한 제 3자의 해석에 대해 그럴듯하고 미묘한 답변을 생성
의사소통 오류나 거짓말을 잘못 이해하는 상황을 구별할 수 있음
GPT-4는 output-consistent한 설명을 잘 생성
output-consistent란, 인풋과 문맥이 주어졌을 때 예측에 일관성이 있음을 의미
하지만 output-consistency가 언제나 process-consistency를 보장해주는 것은 아님
process-consistent란, 모델의 다른 예측과 설명 사이의 일관성을 의미
구분(구별; discriminative) 능력
아무런 예시 없이도 개인 식별 정보(PII; personally identifiable information)를 잘 파악
현재의 평가도구(metrics)로는 유사성 태스크에서 GPT-4가 생성한 답변을 제대로 평가하지 못함
성능이 떨어지는 부분은 실제로 답변이 부정확해서가 아니라 답변이 길거나 두서없이 진행되기 때문
현재 유사성(similarity) 태스크의 평가도구는 단어나 문장 기반의 유사성을 판단(통사론; syntax)하기 때문에 의미적인(semantic) 유사성 판단은 어려움
GPT-3 대비 그럴듯한 거짓말을 하는 경우가 줄어듦
한계
모델이
순차적인 방식
으로 문제를 해결하도록 학습되었기 때문에 (autoregressive) 단순한 계산 문제도 틀리는 경우 존재
다음 단어를 예측하는 아키텍처는 모델로 하여금 inner dialogue를 가질 수 없도록 하기 때문
태스크나 결과에 대한 전반적이거나 깊은 이해 없이 국지적으로 가장 확률이 높은 다음 단어를 예측하도록 설계된 모델은 유창하고 일관성 있는 텍스트를 만들 수 있으나, 복잡하거나 창의적인 문제를 푸는 데에는 한계를 보임
hallucination (그럴듯한 거짓말), bias (편향) 여전히 존재
jihyelee
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher at LG CNS AI Lab
팔로우
이전 포스트
LLaMA: Open and Efficient Foundation Language Models
다음 포스트
OPT: Open Pre-trained Transformer Language Models
0개의 댓글
댓글 작성
관련 채용 정보