말, 비디오, 행동, ...
이전 데이터들이 들어왔을 때, 이를 통해 다음 데이터를 예측
Latent autogressive model
Recurent Neural Network
MLP와 유사한데, x에서 h로 가는 중간층 A가 시간 순으로 recurrent하게 들어온다.
펼쳐진 그림을 참조
RNN의 단점 : Short-term dependency
Long Short Term Memory(LSTM)
Gated Recurrent Unit(GRU)
Sequential model은 sequence의 길이가 계속 달라질 수 있어 다루기 어렵다.
Transformer
Attention이란 구조 활용
encoder, decoder 구조
N개의 input이 들어와도 한 번에 encoding, decoding은 단어 개수 N개로 됨
Encoder 하나는 Self-attention, Feed forward neural network로 구성되어 있음.
self attention
왜 잘될까?
Multi-headed Attention
Positional encoding