BERT

매일 공부(ML)·2021년 11월 23일

0

Simple toy project

목록 보기

17/19

CODE: 링크텍스트

BERT

BERT의 모델 구조

Transformer Encoder구조 활용
Layer개수는 12개 이상 늘리고, 파라미터 전체적 증가
Decoder없이 모델 학습 시킬 수 있는 이유: Mask LM, LSP존재

Mask LM

이전의 NEXT Token Prediction Language Model과 대비 시켜 알맞은 말을 넣어보는 문제를 엄청 풀게 하는 언어모델 구현

Next Sentence Prediction

좌우 두 문장이 순서대로 이어져 있는 문장인지 맞추는 문제로 입력을 받았을 때 NSP결과값을 리턴한다.

Token Embedding

텍스트의 tokenizer
문자 단위로 임베딩
긴 길이의 subword를 하나의 단위로 만들어준다
자주 등장하지 않으면(OOV) 다시 쪼개짐

Segment Embedding

기존 Transformer에 없던 것
각 단어의 역할 규정(어느 부분에 속하는 규정, 질문인지 대답인지 기타 등등)

Position Embedding

Transformer과 동일

매일 공부(ML)

성장을 도울 아카이빙 블로그

이전 포스트

Super Resolution

다음 포스트

OCR

0개의 댓글