CODE: 링크텍스트
Transformer Encoder구조 활용
Layer개수는 12개 이상 늘리고, 파라미터 전체적 증가
Decoder없이 모델 학습 시킬 수 있는 이유: Mask LM, LSP존재
텍스트의 tokenizer
문자 단위로 임베딩
긴 길이의 subword를 하나의 단위로 만들어준다
자주 등장하지 않으면(OOV) 다시 쪼개짐
기존 Transformer에 없던 것
각 단어의 역할 규정(어느 부분에 속하는 규정, 질문인지 대답인지 기타 등등)