BERT는 Encoder만 가진 모델이므로 예측은 단순히 출력 계산이다.
마지막에 task-specific output layer을 붙여 예측한다.
예) 감성분석 [CLS] -> Dense -> 긍정/부정
NER 각 토큰 -> Dense -> 개체 태그
MRC 각 토큰 -> Dense -> start/end 위치
Decoder는 내부적으로:
이전 토큰만 보면서 다음 토큰을 순차 생성한다. (한 단어씩 생성)