BERT 의 예측과 Transformer의 디코더는 어떻게 다른가

구름을잡아라

목록 보기

60/60

BERT는 Encoder만 가진 모델이므로 예측은 단순히 출력 계산이다.

마지막에 task-specific output layer을 붙여 예측한다.

예)
감성분석
[CLS] -> Dense -> 긍정/부정

NER
각 토큰 -> Dense -> 개체 태그

MRC
각 토큰 -> Dense -> start/end 위치

Decoder는 내부적으로:

이전 토큰만 보면서 다음 토큰을 순차 생성한다. (한 단어씩 생성)

오랜시간 망설였던 코딩을 다시 해보려고 노력하고 있는 사람