본 글은 Stanford CS224N Winter 2021의 강의를 듣고 정리하는 내용입니다.
Good Word vector를 어떻게 학습시킬 것인가?⇒ parameters에 대한 loss function의 Gradient(기울기) 계산θ를 변화시키면서 J(θ)를 최소화하고자 함현재 θ에 대한 기울기를 구하고, 기울기의 반대 방향으로 조금씩 움직임(small s