BERT 의 예측과 Transformer의 디코더는 어떻게 다른가

Soogyung Gwon·3일 전

구름을잡아라

목록 보기
60/60

BERT의 예측

BERT는 Encoder만 가진 모델이므로 예측은 단순히 출력 계산이다.

마지막에 task-specific output layer을 붙여 예측한다.

예)
감성분석
[CLS] -> Dense -> 긍정/부정

NER
각 토큰 -> Dense -> 개체 태그

MRC
각 토큰 -> Dense -> start/end 위치

  • 출력층은 있지만 Transformer Decoder는 포함되어 있지 않음
  • 문장 전체를 한 번에 이해하고 분류 결과만 출력

Transoformer의 Decoder

Decoder는 내부적으로:

  1. Masked Self-Attention
    미래 단어를 보지 못 함
  1. Auto-Regressive Generation
    한 토큰 생성 -> 다시 입력 -> 다음 토큰 생성
    (반복)

이전 토큰만 보면서 다음 토큰을 순차 생성한다. (한 단어씩 생성)

profile
오랜시간 망설였던 코딩을 다시 해보려고 노력하고 있는 사람

0개의 댓글