[NLP] Self-supervised Pre-training Models

Jeonghyun·2022년 10월 24일
0

NLP

목록 보기
5/8

Pre-training model 종류

GPT-1

  • Classfication
  • Entailment
  • Similarity
  • Multiple Choice

BERT

masked language model (MLM) : 이전 모델이 앞 쪽의 단어만을 보고 뒤를 예측했다면 앞, 뒤 전체적인 문맥을 보고 예측하여 좋은 결과를 냄

  • 단어를 [Mask] 토큰으로 치환하는데 몇 %를 치환할껀지 사전에 결정. 적절한 비율은 k=15k = 15%.
  • 이보다 적게 설정하면 나머지 단어를 인코딩하므로 효율이 떨어지고 시간이 오래걸리고 많이 설정하면 각 단어를 맞추는데 충분한 정보가 제공되지 않음.
  • 하지만 15%의 단어도 모두 mask로 바꾸지 않음. 이중 80%만을 치환하고 나머지 10%는 다른 단어로, 10%는 그대로 둔다.

Next Sentence Prediction : 문장의 연속성을 평가하여 예측. [SEP]토큰으로 두 문장을 구분해주고 [CLS] 토큰은 문장 앞에 추가.

1. Model Architecture

  • Bert Base
  • Bert Large

2. Input Representation

  • WordPiece embeddings : subword 토큰으로 나눔
  • Learned positional embedding : 단어의 위치 정보 포함
  • [CLS] classification embedding : 단어의 연속성 토큰
  • [SEP] Packed sentence embedding : 문장 구분 토큰
  • Segment Embedding : position 뿐만 아니라 여러 문장일 경우 몇번째 문장인지에 대한 정보를 포함

3. Pre-training Tasks

  • Masked LM
  • Next Sentence Prediction

Fine tuning process : 기존 모델을 기반으로 아키텍쳐를 새로운 목적에 맞게 변형하고 이미 학습된 모델의 가중치를 미세하게 조정하여 학습시키는 방법

  • Sentence Pair Classification Task
  • Single Sentence Classification Task
  • Question Answering Task
  • Single Sentence Tagging Task

GPT-2




출처 - 부스트캠프 AI tech 교육자료


[부스트캠프 AI Tech] Week 5 - Day 5

0개의 댓글