[참고] - OOV 같은 경우는?
- OOV, unseen, unknown, word embedding 이 없다 ... 다 같은 의미
- We saw Subword information used for creationg embedding
- Another alternative is to use standard word embeddings and reason about subword information within a model.
"amazon and spotify's streaming services are going to devour apple and its music purchasing model
문장에서 멀리 있는 information 이 효과적으로 전달될 수 있나?
error 가 다시 맨 앞까지 잘 전달될 수 있나?
Recurrent networks are deep in that they involve on layer for each time step -> error 가 모든 곳에 다 전달되어야 한다.
Vanishing gradient problem : as error is back propagated through the layers of a deep netword, they tend toward 0. -> layer가 많고 깊을 수록 error 가 0에 수렴 ( 기울기 소멸 문제 )