"오늘 날씨가" -> "좋다"를 확률적으로 계산하는 모델Google에서 번역 성능을 개선하기 위해 Transformer 구조를 제언한 논문(Attention Is All You Need (2017))을 발표
이전까지는 RNN / LSTM 기반이었는데, Transformer는 문장을 순차적으로 보지 않고, 전체를 한 번에 보고 관계를 계산함
y = f(x) (입력 x → 모델 f → 출력 y) 로 비교하자면
// 기존 RNN 느낌
state = f(state, input)
// Transformer 느낌
output = f(allInputs)
[입력]
↓
(Self-Attention)
↓
(Feed Forward)
↓
[다음 블록으로]