어떤 시스템을 해석하기 위한 3요소 : 입력(u), 상태(x), 출력(y)
1차원 시스템의 모형:
각 시간에서 관측 가능한 상태의 모음: 출력
상태 가 의미하는 것은? hidden layer의 state
앞의 그림에서 상태 는 이전까지의 상태와, 이전까지의 입력을 대표할 수 있는 압축본
상태 는 시계열로 들어오는 입력들을 최대한 상세히 표현
원래 풀고 싶었던 문제:
대신해서 풀 문제:
First-order Markov Model
State-Space Model에서 근사하는 함수는 2개:
우리는 함수 f와 h를 근사하기 위해서 뉴럴 네트워크를 사용
사용하는 parameter matrix는 총 5개
Machine Translation
문장 전체를 Feature로 해석하고 문장 전체를 생성
Decoder과정에서 학습시 초기 값이 이상하므로 연쇄적으로 이상한 값 도출
이러한 문제점을 해결하기 위해 Attention 도입
그럼에도 불구하고 rnn이나 lstm에 비하여 좋은 성능
Full Process
(1) Word Tokenization & Encoding : word --> [ 1 0 0 0 ].
(2) Training [ ] --> [ ] teacher-force
(3) Validation & Testing