[NLP] Natural Language Generation

yoonene·2021년 12월 8일
0

ML/DL

목록 보기
4/17

2018년 ~ : BERT 등 transfer learning을 적용하는 pretrained 모델
2019년 ~ : GPT-3 등 generation에 포커싱한 모델이 큰 축을 이루게 됨


BERT 이후 봐야할 언어 생성 모델들
1. GPT-2 (OpenAI)
: 많은 언어를 학습시키니 생성이 잘되는구나
2. T5 (Google)
: 우리도 생성 모델 해보자
3. BART (Facebook)
: bert+gpt
4. GPT-3 (OpenAI)
: 모델은 GPT 그대로지만 엄청나게 많은 언어를 학습 => few-shot learning 적용


오늘의 핵심 : GPT-3 간단 요약

  • Generative Pretrained Transformer 3
  • Natural Language Generation 모델계의 짱
  • 엄청난 양의 데이터를 학습
  • Meta-Learning이 가능

1. BART

  • facebook

1) 구조

  • Encoder
    - Bert의 개념: Bidirectional Encoder
    • 손상된 text를 입력받아 bidrectional 모델로 인코딩
    • Bert
      • Bidirectional Encoder
        • masked token을 예측하는 방식으로 학습
        • 생성 작업에서 성능 부족
  • Decoder
    - GPT의 개념: Auto-Regressive Decoder
    • 정답 text에 대한 likelihood를 autoregressive 디코더로 계산
    • GPT
      • auto-regressive 언어 모델
        • 단방향 학습 => 생성 가능, 문맥 파악 부족

==> 문맥 파악 + 문장 생성

2) 입력

Token Masking, Sentence Permutation, Document Rotation, Token Deletion, Text Infilling 등을 사용하여 입력 문장을 처리.

2. T5

  • Google
  • Bert는 텍스트 생성에 있어서 제약이 있었음

특징

- Crawling 데이터를 사용 (품질이 낮아서 처리해서 넣음)
- 군데군데 마스크해서 학습시킨 건 똑같은데, 연관된 문장이 있으면 연결해서 결과를 도출할 수 있음.
- masked 단어를 찾아내서 채워넣는 기능이라 온전한 generation이라고 하기 어려움.

3. GPT-2

  • OpenAI
  • 뉴스 기사 같은 거 생성 가능 -> 자세히 보면 동어가 많이 나와서 좀 허접함

BERT와 GPT-2의 차이점

1. Auto-regressive

Bert - 자기 인코딩 언어 모델
GPT-2 - 자기 회귀 언어 모델 => RNN 활용

2. Masked Self-Attention
: 예측하고자 하는 뒷 부분은 mask해놓고 그 앞 부분만 학습시켜서 뒤에 올 단어 예측

BERT - Self-Attention
: 앞뒤 문맥을 다 보고 attention을 구함
GPT-2 - Masked Self-Attention

BERT는

  • 자기 회귀 능력 X
  • 문맥 고려, 다음 단어 예측 떨어짐 (양방향)

4. GPT-3

핵심 정리

  1. 엄청나게 큰 parameters 학습
  2. Few-Shot Learning (meta-learning)

GPT 모델들

GPT-1: 우리도 Transfer Learning 해봤다.
GPT-2: 많이 학습시키니 fluent하게 언어를 생성하더라.
GPT-3: 엄청 엄청 많이 학습시켰더니 few-shot learning이 가능하더라. meta-learning 가보자고

Few-Shot Learning

  • 적은 양의 데이터로도 학습이 가능함
  • Task를 분리할 필요가 없음
  • Meta-Learning

In-Context Learning

  • Zero-shot
  • One-shot
  • Few-shot

Meta-Learning

엄청나게 많은 파라미터를 학습한 대규모 모델을 통해 사용
이미지, 텍스트에는 적용되고 있지만 정형 데이터에는 적용되지 않고 있음
번역 등 언어 생성뿐만 아니라 코드, 이미지 등도 출력 가능

  • Metric 기반 학습으로 유사도만 학습하는 방법이 가장 활용도 높은 learning to learn 방식.

Meta-Learning의 한계점

  1. 잘못된 사용
  2. 공정성, 편향, 표현력의 문제
  3. 에너지 사용

GPT-3의 한계점

  1. 성능적 한계
  • 물리학적 일반 상식 부족
  • 동어 반복 현상 -> 긴글에서 가독성 떨어짐
  1. 모델의 구조/알고리즘적 한계
  • 단방향 학습 -> 문맥 파악이 부족함
  1. 훈련 과정의 효율성

  2. 비용
  • 데이터가 아아ㅏ아아주 많이 필요하니 돈 많은 조직에서나 만들 수 있겠지.
  1. 설명 가능성 X

=> meta-learning을 실현하니까 그 한계점도 가지겠음.

+) AGI (Artificial General Inteligence)

인공지능의 다음 단계로, 범용 인공지능.
Task를 분리하지 않는 모델

구현 방법1 : Meta-Learning

유사도를 학습하는 metric 기반의 학습. 거대한 언어 모델

구현 방법2 : Knowledge Graph

세상의 모든 지식을 동일한 방식으로 표현
모든 분야(Task)들이 모두 연결되어 있

결론: 범용 인공지능(AGI)는 일반화된 거대한 지식으로 구현한다는 것

profile
NLP Researcher / Information Retrieval / Search

0개의 댓글