Paper link(ICLR 2019)
만약, 학습동안 등장하지 않은 단어가 들어왔다고 생각해보자. 이는 extreme low frequency word라고 할 수 있다. 학습과정에서 다른 파라미터들은 모두 잘 학습되었다고 가정할 때, 우리는 아래 최적화과정을 진행하게 된다.
그리고 theorem 1에 의해 이 희소단어는 unbound하게 된다. 즉, 어떠한 Uniformly negative direction(어떤 토큰과의 내적이 모두 0보다 작음)이 존재한다면, 이 단어는 어떤 방향으로든 무한대로 최적화될 수 있다는 것이다. 여기서 uniformly negative direction은 convex set이므로, w_N은 convex cone에 위치하게 되며 Infinite로 발산할 것이다.
Theorem 2는 여기에 더해 uniformly negative direction이 존재함을 보인다. 여기서 우리는 이 조건이 성립하는 것은 hidden state 의 구조에 의존한다는 것을 확인할 수 있다.
language modeling과 matchine translation에 대한 결과를 리포트한다.
SVD 플롯 결과도 확인해보면 제안한대로 플롯이 더 고르게 분포하는 것을 볼 수 있다.