Transformer 인코더를 기반으로 한 모델로, 양방향 문맥을 학습해 단어의 앞뒤 의미를 모두 이해
[CLS] 문장의 대표 벡터 [SEP] 문장 구분/끝 표시
[CLS] 문장 A [SEP] 문장 B [SEP] ....
토큰간 관계를 다 보기 떄문에 길이 L -> O(L^2) 512가 넘어갈때는 슬라이딩 뮌도우