Sparks of Artificial General Intelligence: Early experiments with GPT-4

jihyelee·2023년 5월 30일
1

language-model

목록 보기
8/9

Sparks of Artificial General Intelligence: Early experiments with GPT-4
arXiv 2023

들어가며

  • 최근 공개된 GPT-4에 대한 다양한 실험 결과를 정리한 논문
  • 전례없는 규모의 연산과 데이터로 학습한 GPT-4는 이전 AI 모델 대비 일반 지능(general intelligence)에 더욱 근접한 모습을 보임
    • GPT-4는 특별한 프롬프팅 없이 수학, 코딩, 이미지, 약, 법, 심리학 등 다양한 태스크를 해결할 수 있음
    • 해당 논문에서는 AGI(artificial general intelligence)라는 용어를 사용했는데, 인간과 유사한 혹은 인간을 뛰어넘는 수준의 추론, 계획, 경험으로부터의 학습 등의 지능을 보여주는 시스템을 지칭
  • 워낙 많은 실험 결과를 공유하는 논문(총 155쪽)이기 때문에, 관심있는 부분 위주로 정리 예정

멀티모달(multimodal), 간학문(interdisciplinary)

  • 다양한 도메인에서 고차원의 숙련성을 보임
  • 다양한 도메인으로부터의 스킬과 개념을 결합해 복잡한 아이디어를 이해하는 능력을 보임
    • 새롭고 창의적인 방식으로 여러 도메인을 합성 가능

비전(vision; image)

  • 이미지 관련(visiual) 태스크에서 단순히 학습 데이터와 유사한 수준을 넘어서 독창적인 능력을 보임
    • 프롬프트를 추가적으로 제시함으로써 이미지 development 가능 (e.g. 피드백 제공)
    • 구체적인 description을 통해 2D 이미지나 3D 모델링 가능

음악

  • ABC notation을 이용해 어느 정도는 유의미한 음을 만들어낼 수는 있으나, 하모니 생성은 어려움
  • ABC notation에서 가장 유명한 음들을 인식하거나 생성하는 데에 어려움을 겪음

수학

  • 다른 도메인과 마찬가지로 GPT-4의 수학적 지식은 문맥에 기반(context-dependent)
    • 질문의 단어나 문장이 바뀌면 모델이 보여주는 지식 또한 바뀔 수 있음
  • 창의적 추론: 정답을 유도할 수 있는 옳은 주장을 제대로 선택
  • 기술적 유능성: 관련있는 알고리즘에 대한 높은 수준의 지식을 보여주나, 태스크를 수행할 때 실수도 빈번
  • 비판적 추론: 주장의 각 단계를 비판적으로 확인하는 능력은 부족
    • 학습 데이터가 단순히 순차적(linear) 설명에 불과하기 때문에, 전제나 계산을 비판적으로 평가하는 부분은 학습하지 못함
    • 언어모델이 다음 단어를 예측하는 패러다임으로 학습되었기 때문에 비판적 추론 능력은 더욱 얻기 어려움

세상과의 상호작용

  • 상호작용성이란, 다른 에이전트, 도구, 환경으로부터 얻는 피드백에 대해 반응하고 소통하는 능력을 의미
  • GPT-4는 검색엔진이나 API 등 외부 도구들을 사용하여 언어모델의 한계를 극복
    • 여전히 프롬프트를 사용하여 어떠한 외부 도구를 사용할 것인지 명시해줘야 한다는 한계 존재
    • 오류 패턴이 반복되기도 함
  • GPT-4는 자연어를 통해 사용자와 상호작용 또한 가능함 (e.g. 피드백 반영)
    • GPT-4가 옳지 않은 함수를 생성하였을 때, 오류를 파악하고 고치라는 프롬프트를 통해 오류 수정 가능
  • 믿음, 감정, 욕망, 의도 등 사람의 정신상태를 올바르게 파악하고 추론 가능
    • 혼란스러운 행동 뒤에 숨은 의도와 이에 대한 제 3자의 해석에 대해 그럴듯하고 미묘한 답변을 생성
    • 의사소통 오류나 거짓말을 잘못 이해하는 상황을 구별할 수 있음
  • GPT-4는 output-consistent한 설명을 잘 생성
    • output-consistent란, 인풋과 문맥이 주어졌을 때 예측에 일관성이 있음을 의미
    • 하지만 output-consistency가 언제나 process-consistency를 보장해주는 것은 아님
    • process-consistent란, 모델의 다른 예측과 설명 사이의 일관성을 의미

구분(구별; discriminative) 능력

  • 아무런 예시 없이도 개인 식별 정보(PII; personally identifiable information)를 잘 파악
  • 현재의 평가도구(metrics)로는 유사성 태스크에서 GPT-4가 생성한 답변을 제대로 평가하지 못함
    • 성능이 떨어지는 부분은 실제로 답변이 부정확해서가 아니라 답변이 길거나 두서없이 진행되기 때문
    • 현재 유사성(similarity) 태스크의 평가도구는 단어나 문장 기반의 유사성을 판단(통사론; syntax)하기 때문에 의미적인(semantic) 유사성 판단은 어려움
  • GPT-3 대비 그럴듯한 거짓말을 하는 경우가 줄어듦

한계

  • 모델이 순차적인 방식으로 문제를 해결하도록 학습되었기 때문에 (autoregressive) 단순한 계산 문제도 틀리는 경우 존재
    • 다음 단어를 예측하는 아키텍처는 모델로 하여금 inner dialogue를 가질 수 없도록 하기 때문
    • 태스크나 결과에 대한 전반적이거나 깊은 이해 없이 국지적으로 가장 확률이 높은 다음 단어를 예측하도록 설계된 모델은 유창하고 일관성 있는 텍스트를 만들 수 있으나, 복잡하거나 창의적인 문제를 푸는 데에는 한계를 보임
  • hallucination (그럴듯한 거짓말), bias (편향) 여전히 존재
profile
Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP), AI Researcher at LG CNS AI Lab

0개의 댓글