NLP Day 7, 9/14 Tue

이호영·2021년 9월 17일
0

Boostcamp AI Tech 2기

목록 보기
24/32

Self-supervised Pre-trained Models

  • Transformer model, self-attention block
  • Deeply stacked Transformer models via self-supervised learning, transfer learning, ex) GPT-1, BERT

GPT-1

  • special token
  • 자연어의 다양한 task를 해결할 통합적인 모델
  • Text & Position Embedded
  • Self-Attention x 12
  • Large scale의 data로 학습된 모델로 성능이 좋다.

classification

Start-Text-Extract-Transformer-Linear

Linear 단을 제거하고 학습단에서는 learning rate를 작게 만들어서 transfer learning에 사용한다.

Entailment

Start- Premise - Delim -Hypothesis - Extract -Transformer - Linear

Delim : 특수 문자

Extract가 query처럼 사용되어서 입력 문장들로부터 필요한 정보들을 추출할 수 있어야함

Similarity

Multiple Choice

BERT

Elmo의 Bi-direction LSTM을 사용함

Masked Language Model

  • Motivation

기존의 LM은 한쪽 방향에서의 정보만을 사용했다. 그러나 사람은 언어를 이해할 때 양쪽 방향을 모두 살펴보고 이해함

Pre-training Tasks in BERT

  • Masked Language Model

Masked Language Model

마스크 비율에 따라 학습 효율이 달라지는데 논문에서는 15% 비율을 마스킹했다.

→ Fine tuning 시에는 [MASK] 라는 토큰이 없다.

80%는 mask token, 10%는 random word로 replace, 10%는 원래 단어와 동일하게 둔다.

Next Sentence Prediction

두 문장을 이으면서 SEP 토큰을 문장 사이와 문장 마지막에 넣고 CLS 토큰을 문장의 시작 부분에 놓는다.

profile
Speech Synthesis & Voice Cloning

0개의 댓글