[논문리뷰] "Language Models are Few-Shot Learners"

My_oyster_house·2024년 8월 30일

논문 리뷰: "Language Models are Few-Shot Learners"

오늘 리뷰할 논문은 그 어마어마한 GPT-3 이다.

용어 정리

  • Zero-Shot Learning: 모델이 사전 학습 없이 특정 작업에 대해 자연어 설명만으로 문제를 해결.
  • One-Shot Learning: 모델이 단 하나의 예시와 함께 자연어 설명을 통해 작업을 수행.
  • Few-Shot Learning: 모델이 여러 개의 예시와 함께 작업을 수행.
  • In-Context Learning: 모델이 주어진 예시나 지시문을 활용해 학습 없이 작업을 수행하는 방법으로, GPT-3는 이러한 방식으로 zero-shot, one-shot, few-shot 학습을 수행함.
  • Autoregressive Model: 이전 출력 토큰을 다음 입력으로 사용하여 시퀀스를 생성하는 모델. GPT-3는 이러한 자기회귀 모델로 텍스트를 생성.

GPT-1, GPT-2, GPT-3 비교

특징GPT-1GPT-2GPT-3
파라미터 수1.1억15억1750억
모델 크기12 레이어48 레이어96 레이어
학습 데이터BookCorpus8백만 개 웹 페이지Common Crawl(570GB), 기타 대형 데이터셋
주요 성능 향상최초의 트랜스포머 기반 언어 모델더 큰 모델과 더 많은 데이터 사용few-shot 학습에서 최고 성능 기록
자연어 처리 능력중간높음매우 높음
Zero-Shot 성능지원하지 않음제한적매우 뛰어남
One-Shot 성능지원하지 않음제한적매우 뛰어남
Few-Shot 성능지원하지 않음제한적최첨단 성능에 필적하거나 초과

GPT-3와 BERT 비교

특징BERT-LargeGPT-3
파라미터 수3.4억1750억
모델 크기24 레이어96 레이어
학습 방식사전 학습 후 미세 조정사전 학습 후 zero/one/few-shot
Zero-Shot 학습 성능제한적매우 뛰어남
One-Shot 학습 성능지원하지 않음뛰어남
Few-Shot 학습 성능제한적매우 뛰어남
일반화 성능미세 조정 데이터셋에 의존사전 학습 데이터에 의존하여 일반화
사용 용도특정 작업에 대한 미세 조정다양한 작업에 대한 범용성

GPT-3의 트랜스포머 디코더 구조

  • GPT-3는 트랜스포머 아키텍처의 디코더 구조를 사용하여 텍스트 생성 작업을 수행.
  • 이 구조는 입력 시퀀스의 각 토큰을 처리하여 출력 시퀀스를 생성하며, 이전 출력 토큰을 다음 입력으로 사용하는 자기회귀 모델.
  • 트랜스포머의 디코더는 주로 텍스트 생성 작업에서 사용되며, GPT-3는 이를 확장하여 다양한 NLP 작업에서 우수한 성능을 달성.
  • 논문에서는 GPT-3의 디코더 구조가 대규모 사전 학습 데이터와 결합되어 in-context 학습 능력을 극대화할 수 있음을 강조함.
  • 트랜스포머 아키텍처의 확장으로 인해, GPT-3는 더욱 향상된 few-shot 학습 능력을 보여주며, 이를 통해 다양한 작업에 유연하게 대응 가능함.

Abstract

  • 최근 NLP 작업에서 대규모 텍스트 코퍼스 사전 학습 후 특정 작업에 대해 미세 조정을 통해 성과 향상.
  • 기존의 접근 방식은 수천에서 수만 개의 예시가 필요한 반면, 사람은 몇 가지 예시나 간단한 지침만으로 새로운 언어 작업 수행 가능.
  • GPT-3(1750억 개의 파라미터를 가진 언어 모델)의 성능을 few-shot 환경에서 평가.
  • GPT-3은 번역, 질의응답, 단어 맞추기 등의 다양한 NLP 작업에서 강력한 성능을 발휘.
  • 하지만 GPT-3도 few-shot 학습에서 여전히 어려움을 겪는 데이터셋 존재.
  • GPT-3가 생성한 뉴스 기사를 인간 평가자가 구분하기 어려움.
  • GPT-3의 사회적 영향 논의.

Introduction

  • 최근 NLP 시스템은 점점 더 유연하고 작업에 구애받지 않는 사전 학습 언어 표현을 사용.
  • 그러나 여전히 작업별 데이터셋과 미세 조정이 필요하다는 한계 존재.
  • 인간은 큰 데이터셋 없이도 많은 언어 작업을 수행 가능.
  • 메타 학습을 통해 언어 모델이 학습한 패턴 인식 능력으로 새로운 작업에 빠르게 적응할 수 있을 것으로 기대.
  • 언어 모델의 크기를 확장하면 in-context 학습 능력이 크게 향상될 것으로 가정.
  • GPT-3를 통해 이러한 가설을 검증하고자 함.

Conclusion

  • GPT-3는 다양한 NLP 작업에서 zero-shot, one-shot, few-shot 설정으로 유망한 결과를 보임.
  • few-shot 설정에서 기존 최첨단 성능과 경쟁하거나 이를 능가하는 경우도 있음.
  • GPT-3는 빠른 적응이 필요한 작업에서도 높은 성과를 보임.
  • 하지만 GPT-3도 여전히 자연어 추론과 같은 작업에서 한계를 보임.
  • 언어 모델의 편향, 공정성, 사회적 영향에 대한 우려가 존재하며, 이에 대한 지속적인 연구 필요.
profile
kwonhs.alice@gmail.com

0개의 댓글