정리가 매우 잘되어있는 블로그
1. Gradient Flow
먼저, Gradient Flow라는 것에 대해서 이해할 필요가 있다. Gradient Descent를 조금 다르게 생각하는 것이다.
θt+1=θt−η∇θL(θ)
간단한 식조작을 통해서 아래와 같이 바꿔보자.
ηθt+1−θt=−∇θL(θ)
만약 η≈0이라면, 아래 처럼 생각할 수 있지 않을까?
dtdθ(t)=−∇θL(θ)
이렇게 생각하는 것을 Gradient Flow라고 한다.
2. Empirical Risk
Empirical Risk가 다음과 같이 주어졌다고 하자.
L(θ):=N1i∑ℓ(f(xi;θ),yi)
Chain Rule을 통해 아래의 식을 알고 있다.
dtdf(x;θ)=∂θ∂f(x;θ)dtdθ
3. Wrap Up.
∇θL(θ)=N1i=1∑N∇θℓ(f(xi;θ),yi)=N1i=1∑N∇θf(xi;θ)∇fℓ(f(xi;θ),yi)
dtdf(x;θ)=−N1i=1∑N∇θf(x;θ)⊤∇θf(xi;θ)∇fℓ(f(xi;θ),yi)
이때, 이 ∇θf(x;θ)⊤∇θf(xi;θ) 부분을 Neural Tangent Kernel이라고 하고, 여러 문서에서 기호로는 Θ으로 표기한다.
Gradient Based Learning Model을 Kernel Regression의 형태로 이해할 수 있는 관점이 흥미로운 것 같다.