최적화 함수 구하기
∂vc∂P(o∣c)=∂vc∂log(∑w=1Vexp(uoTvc)exp(uoTvc))
=∂vc∂logexp(uoTvc)−∂vc∂log(w=1∑Vexp(uoTvc))
(왼쪽 항은 분자, 오른쪽 항은 분모)
(분자)=∂vc∂uoTvc=∂vc1∂(uo1vc1+uo2vc2+...uo100vc100),∂vc2∂(uo1vc1+uo2vc2+...uo100vc100)...=uo1,uo2...uo100=uo
(분모)=∂vc∂log(∑w=1Vexp(uoTvc))=∑w=1Vexp(uwTvc)1⋅∑x=1V∂vc∂exp(uxTvc)=∑w=1Vexp(uwTvc)1⋅∑x=1Vexp(uxTvc)⋅ux
(분자)−(분모)=uo−∑x=1V∑w=1Vexp(uwTvc)exp(uxTvc)⋅ux=uo−∑x=1Vp(x∣c)⋅ux
⇒ 다차원에서의 기울기 값인데, 실제 관찰된 context word(uo)에서 모델이 추정한 값을 뺌
(모델이 추정한 값 = 각 단어의 값 × 그것의 확률) (⇒가중평균)
⇒ 전형적인 손실함수 꼴