논문 리뷰: "Language Models are Few-Shot Learners"
오늘 리뷰할 논문은 그 어마어마한 GPT-3 이다.
용어 정리
- Zero-Shot Learning: 모델이 사전 학습 없이 특정 작업에 대해 자연어 설명만으로 문제를 해결.
- One-Shot Learning: 모델이 단 하나의 예시와 함께 자연어 설명을 통해 작업을 수행.
- Few-Shot Learning: 모델이 여러 개의 예시와 함께 작업을 수행.
- In-Context Learning: 모델이 주어진 예시나 지시문을 활용해 학습 없이 작업을 수행하는 방법으로, GPT-3는 이러한 방식으로 zero-shot, one-shot, few-shot 학습을 수행함.
- Autoregressive Model: 이전 출력 토큰을 다음 입력으로 사용하여 시퀀스를 생성하는 모델. GPT-3는 이러한 자기회귀 모델로 텍스트를 생성.
GPT-1, GPT-2, GPT-3 비교
| 특징 | GPT-1 | GPT-2 | GPT-3 |
|---|
| 파라미터 수 | 1.1억 | 15억 | 1750억 |
| 모델 크기 | 12 레이어 | 48 레이어 | 96 레이어 |
| 학습 데이터 | BookCorpus | 8백만 개 웹 페이지 | Common Crawl(570GB), 기타 대형 데이터셋 |
| 주요 성능 향상 | 최초의 트랜스포머 기반 언어 모델 | 더 큰 모델과 더 많은 데이터 사용 | few-shot 학습에서 최고 성능 기록 |
| 자연어 처리 능력 | 중간 | 높음 | 매우 높음 |
| Zero-Shot 성능 | 지원하지 않음 | 제한적 | 매우 뛰어남 |
| One-Shot 성능 | 지원하지 않음 | 제한적 | 매우 뛰어남 |
| Few-Shot 성능 | 지원하지 않음 | 제한적 | 최첨단 성능에 필적하거나 초과 |
GPT-3와 BERT 비교
| 특징 | BERT-Large | GPT-3 |
|---|
| 파라미터 수 | 3.4억 | 1750억 |
| 모델 크기 | 24 레이어 | 96 레이어 |
| 학습 방식 | 사전 학습 후 미세 조정 | 사전 학습 후 zero/one/few-shot |
| Zero-Shot 학습 성능 | 제한적 | 매우 뛰어남 |
| One-Shot 학습 성능 | 지원하지 않음 | 뛰어남 |
| Few-Shot 학습 성능 | 제한적 | 매우 뛰어남 |
| 일반화 성능 | 미세 조정 데이터셋에 의존 | 사전 학습 데이터에 의존하여 일반화 |
| 사용 용도 | 특정 작업에 대한 미세 조정 | 다양한 작업에 대한 범용성 |
GPT-3의 트랜스포머 디코더 구조
- GPT-3는 트랜스포머 아키텍처의 디코더 구조를 사용하여 텍스트 생성 작업을 수행.
- 이 구조는 입력 시퀀스의 각 토큰을 처리하여 출력 시퀀스를 생성하며, 이전 출력 토큰을 다음 입력으로 사용하는 자기회귀 모델.
- 트랜스포머의 디코더는 주로 텍스트 생성 작업에서 사용되며, GPT-3는 이를 확장하여 다양한 NLP 작업에서 우수한 성능을 달성.
- 논문에서는 GPT-3의 디코더 구조가 대규모 사전 학습 데이터와 결합되어 in-context 학습 능력을 극대화할 수 있음을 강조함.
- 트랜스포머 아키텍처의 확장으로 인해, GPT-3는 더욱 향상된 few-shot 학습 능력을 보여주며, 이를 통해 다양한 작업에 유연하게 대응 가능함.
Abstract
- 최근 NLP 작업에서 대규모 텍스트 코퍼스 사전 학습 후 특정 작업에 대해 미세 조정을 통해 성과 향상.
- 기존의 접근 방식은 수천에서 수만 개의 예시가 필요한 반면, 사람은 몇 가지 예시나 간단한 지침만으로 새로운 언어 작업 수행 가능.
- GPT-3(1750억 개의 파라미터를 가진 언어 모델)의 성능을 few-shot 환경에서 평가.
- GPT-3은 번역, 질의응답, 단어 맞추기 등의 다양한 NLP 작업에서 강력한 성능을 발휘.
- 하지만 GPT-3도 few-shot 학습에서 여전히 어려움을 겪는 데이터셋 존재.
- GPT-3가 생성한 뉴스 기사를 인간 평가자가 구분하기 어려움.
- GPT-3의 사회적 영향 논의.
Introduction
- 최근 NLP 시스템은 점점 더 유연하고 작업에 구애받지 않는 사전 학습 언어 표현을 사용.
- 그러나 여전히 작업별 데이터셋과 미세 조정이 필요하다는 한계 존재.
- 인간은 큰 데이터셋 없이도 많은 언어 작업을 수행 가능.
- 메타 학습을 통해 언어 모델이 학습한 패턴 인식 능력으로 새로운 작업에 빠르게 적응할 수 있을 것으로 기대.
- 언어 모델의 크기를 확장하면 in-context 학습 능력이 크게 향상될 것으로 가정.
- GPT-3를 통해 이러한 가설을 검증하고자 함.
Conclusion
- GPT-3는 다양한 NLP 작업에서 zero-shot, one-shot, few-shot 설정으로 유망한 결과를 보임.
- few-shot 설정에서 기존 최첨단 성능과 경쟁하거나 이를 능가하는 경우도 있음.
- GPT-3는 빠른 적응이 필요한 작업에서도 높은 성과를 보임.
- 하지만 GPT-3도 여전히 자연어 추론과 같은 작업에서 한계를 보임.
- 언어 모델의 편향, 공정성, 사회적 영향에 대한 우려가 존재하며, 이에 대한 지속적인 연구 필요.