BERT 요약

dddwsd·2022년 3월 31일

BERT: Pre-training of Deep Bidirectional Transformer for Language Understanding

Token Embedding
- WordPiece embedding을 사용하여 문장을 tokenize한다.
- WordPiece embedding은 단순 띄어쓰기로 단어를 구분하는 것 보다 효과적으로 token을 분류함 ex) playing -> play + ##ing
- 이렇게 구분할 경우 play와 #ing가 각각 명확한 뜻을 갖고 있으므로 model에게 두가지 의미를 명확하게 학습시킬 수 있고 신조어 또는 오탈자가 있는 입력값에도 예측이 상향될 수 있다. ex) googling - google + #ing
Segment Embedding
- 두개의 문장이 입력될 경우 각 문장에 다른 숫자를 더해줌
- 모델에게 문장의 구분능력을 높여주기 위함.
Positional Embedding
- token의 상대적 위치를 알려줌
- sin cos 함수를 사용
  - sin cos의 출력값은 입력값에 따라 달라짐 따라서 입력값의 상대적인 위치를 알 수 있게 한다.
  - sin cos의 출력값은 규칙적으로 증가 감소하므로 모델이 규칙을 사용하여 입력값의 상대적 위치를 쉽게 계산할 수 있다
  - 무한대 길이의 입력값도 상대적인 위치를 출력할 수 있다.

두 문장의 관계 예측 task
- SEP 토큰으로 구별된 두 문장을 입력값으로 받고 출력값의 첫번째 CLS 토큰을 두 문자의 관계를 나타내도록 학습 시킴
문장을 분류하는 task
- 문장을 입력으로 받고 출력값의 CLS 토큰이 분류값중 하나가 되도록 학습을 시킴
Q&A task
- 질문과 정답을 SEP 토큰으로 분류해서 입력으로 줌 출력값의 마지막 토큰들이 정답의 시작 index와 마지막 index를 출력하도록 학습시킴
문장속 단어 tagging task
- 각 입력 token에 대한 출력값이 원하는 tagging으로 출력되도록 학습을 시킴.