[ML] 딥러닝의 깊이 있는 이해를 위한 머신러닝 5-2 (K-MOOC)

daeungdaeung·2021년 7월 23일

Machine-Learning

목록 보기

10/25

위 그림기준으로 $f(w_{red}) < f(w_{green})$ 이다.
$f(w) = \frac{1}{2} \sum_{i=1}^{n}(wx_i-y_i)^2$
$f(w)$ 의 최소값을 찾는 문제이다. $w$ 에 관한 양의 이차 방정식 이므로 $f'(w)=0$ 인 $w$ 값을 찾으면 된다.
- $f'(w) = \sum_{i=1}^{n}x_i(wx_i-y_i) = 0$
- $\rarr w = \frac{\sum_{i=1}^nx_iy_i}{\sum_{i=1}^nx_i^2}$

$f(\vec{w})=\frac{1}{2}\sum_{i=1}^{n}(\vec{w}^T \cdot \vec{x} - y_i)^2$
$w$ 가 features 개수( $d$ )만큼 있으므로 총 $d$ 번 미분해야합니다.
미분 결과
- $f(w_1, w_2, ..., w_d)=\frac{1}{2}(\sum_{j=1}^{d}w_jx_{ij})^2-(\sum_{j=1}^{d}w_jx_{ij})y_i+\frac{1}{2}y_i^2$
- $\frac{\partial}{\partial w_k}f(w_1, w_2, ..., w_d) = (\sum_{j=1}^{d}w_jx_{ij})x_{ik} - y_ix_{ik} = (\vec{w}^T \vec{x} - y_i)x_{ik}$
벡터에서의 미분 동작 방법
- $f(\vec{w}) = \vec{w}^T \vec{A} \vec{w} \rarr \nabla f(\vec{w}) = 2\vec{A} \vec{w}$ (단, $\vec{A}$ 가 symmetric 이어야합니다.)
벡터 형태의 Least Square
- $f(\vec{w}) = \frac{1}{2}||\vec{x} \vec{w} - \vec{y}||^2 = \frac{1}{2}\vec{w}^T \vec{x}^T \vec{x} \vec{w} - \vec{w}^T \vec{x}^T \vec{y} + \frac{1}{2} \vec{y}^T \vec{y}$
- $\nabla f(\vec{w}) = \vec{x}^T \vec{x} \vec{w} - \vec{x}^T \vec{y} = 0$
- 위 식을 성립하는 $\vec{w}$ 가 $f(\vec{w})$ 최소일 때의 $\vec{w}$ 값입니다.
- $\vec{w} = (\vec{x}^T \vec{x})^{-1}\vec{x}^T \vec{y}$