Pretrained Language Model

leeebs·2022년 5월 3일
0

Self-supervised Learning을 통해 좋은 weight parameter의 seed를 얻어, 전이학습을 통해 한정된 데이터셋에서도 훨씬 더 좋은 성능을 얻을 수 있다는 것이 PLM의 기본적인 컨셉이다. PLM은 Transformer를 활용하는 경우가 많다. 기존의 seq2seq를 대체하는 방식으로 Attention만을 활용하여 아키텍처를 구성한다. NLP에서 general한 representation을 학습하여 전이학습에 활용하는 방법으로 3가지의 성능 향상 방법이 있다.

  1. Feature-based Apporach
  • 워드임베딩 등의 더 좋은 입력 representation
  1. Fine-tuning Approach
  • 더 좋은 weight parameter seed
  1. Meta-learning Approach(GPT-3)
  • 큰 모델을 다시 학습할 필요 없이, in-context learning으로 학습 및 추론을 수행

Target Task에 따라 Transformer 모델의 일부(encoder, decoder)을 선택
수많은 unlabeled corpus를 통해 general representation을 학습
이후 target task에 fine-tuning을 진행

PLM의 장점
  • 이전에는 아키텍처를 만들어야 했으나 손쉽게 SOTA(State Of The Art)에 근접한 성능을 달성할 수 있음
PLM의 단점
  • 새로운 구조의 모델이나 알고리즘이 아닌 단순한 scale-up 경쟁
  • 세상의 지식을 배운 것이 아닌 단순한 흉내

Type of PLMs

Autoregressive Models

  • Transformer의 Decoder를 통해 Language Model을 구성
  • Nest Token Prediction을 통해 학습(이전 단어가 주어졌을 때 다음 단어를 예측하는 형태)
  • NLG Task에서 강점
  • 대표 모델 : Open AI GPT

Autoencoder Models

  • Transformer의 Encoder를 통해 구성(방향성을 가진다)
  • Bi-directional Language Model 구현 가능
  • MLM(Masked Language Model)과 같은 다양한 objective를 통해 학습
  • NLU Task(e.g. Text Classification)에서 강점
  • 대표 모델 : Google BERT

Encoder-Decoder Models

  • Transformer의 Encoder와 Decoder 모두 사용
  • 다양한 objective를 통해 학습
  • NLU와 NLG task 모두 적용 가능
  • 대표 모델 : Facebook BART
profile
개발개발

0개의 댓글