Linear Regression 2

연·2025년 7월 25일

just공부

목록 보기

31/47

Normal equation

벡터는 소문자 bold로 표기하고,
Metrix는 대문자 bold로 표기한다.

y^{(1)} = w_0 + w_1 x^{(1)} + \epsilon^{(1)} \\ y^{(2)} = w_0 + w_1 x^{(2)} + \epsilon^{(2)} \\ y^{(3)} = w_0 + w_1 x^{(3)} + \epsilon^{(3)} \\ y^{(4)} = w_0 + w_1 x^{(4)} + \epsilon^{(4)} \\ y^{(5)} = w_0 + w_1 x^{(5)} + \epsilon^{(5)}

\mathbf{y} = \begin{bmatrix} y^{(1)} \\ y^{(2)} \\ y^{(3)} \\ y^{(4)} \\ y^{(5)} \end{bmatrix} \quad \mathbf{X} = \begin{bmatrix} 1 & x^{(1)} \\ 1 & x^{(2)} \\ 1 & x^{(3)} \\ 1 & x^{(4)} \\ 1 & x^{(5)} \end{bmatrix} \quad \mathbf{w} = \begin{bmatrix} w_0 \\ w_1 \end{bmatrix}

\mathbf{y} = \mathbf{X} \mathbf{w}

앞의 내용에서와 같이 $w$ 는 weight를 나타낸다.

$X$ 는 5 by 2
$w$ 는 2 by 1
product를 해주면 $y$ 와 같이 5 by 1의 벡터가 나오게 된다.

위의 표현을 미분공식에 적용을 해봅시다.

J = \frac{1}{2} \sum_{i=1}^{m} \left( w_1 x^{(i)} + w_0 - y^{(i)} \right)^2 \\ \frac{\partial J}{\partial w_0} = \sum \left( w_1 x^{(i)} + w_0 - y^{(i)} \right) = 0 \\ \frac{\partial J}{\partial w_1} = \sum \left( w_1 x^{(i)} + w_0 - y^{(i)} \right) x^{(i)} = 0

연립방정식 형태로 풀기 위해서 좌측의 항인 $\frac{\partial J}{\partial w_0}$ 을 $0$ 이라고 가정하자.
이 식에서는 변수가 2개일 때를 가정하고 문제를 푸는 것이다.

Weight vector인 $w_0$ 과 $w_1$ 를 찾는 것이 목표이다.

\mathbf{w} = \begin{bmatrix} w_0 \\ w_1 \end{bmatrix}

얘네들에 대한 연립방정식을 세울 것이다.
앞에 있는 식을 정리하게 되면 아래와 같은 식이 나온다.

1)

\hat{w}_0 m + \hat{w}_1 \sum x^{(i)} = \sum y^{(i)} \\ \hat{w}_0 \sum x^{(i)} + \hat{w}_1 \sum (x^{(i)})^2 = \sum y^{(i)} x^{(i)}

summation을 한 형태로 나타난다.

2)

\mathbf{X}^T \mathbf{X} = \begin{bmatrix} m & \sum x^{(i)} \\ \sum x^{(i)} & \sum (x^{(i)})^2 \end{bmatrix}

\mathbf{X} = \begin{bmatrix} 1 & x^{(1)} \\ 1 & x^{(2)} \\ 1 & x^{(3)} \\ 1 & x^{(4)} \\ 1 & x^{(5)} \end{bmatrix} \quad \mathbf{w} = \begin{bmatrix} w_0 \\ w_1 \end{bmatrix} \quad \mathbf{y} = \begin{bmatrix} y^{(1)} \\ y^{(2)} \\ y^{(3)} \\ y^{(4)} \\ y^{(5)} \end{bmatrix}

$X$ 가 5 by 2인데, transpose를 하게되면, ( $\mathbf{X}^T$ 를 하게 되면) 2 by 5가 된다.
$\mathbf{X}^T \mathbf{X}$ 를 하게 되면 2 by 5 와 5 by 2가 되니까 2 by 2가 되게 된다
$\mathbf{X}^T \mathbf{X}$ 의 결과를 자세하게 보게 되면 아래와 같다.

\mathbf{X} = \begin{bmatrix} 1 & x^{(1)} \\ 1 & x^{(2)} \\ 1 & x^{(3)} \\ 1 & x^{(4)} \\ 1 & x^{(5)} \end{bmatrix} \mathbf{X}^T = \begin{bmatrix} 1 & 1 & 1 & 1 & 1 \\ x^{(1)} & x^{(2)} & x^{(3)} & x^{(4)} & x^{(5)} \end{bmatrix}

3-1)

(\mathbf{X}^T \mathbf{X}) \hat{\mathbf{w}} = \mathbf{X}^T \mathbf{y}\\ ↓ \\

3-2)

\hat{\mathbf{w}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}

1)의 공식을 3) 공식으로 표현할 수 있다.
3-1)의 식에서 $(\mathbf{X}^T \mathbf{X})$ 를 오른쪽으로 넘겨주게 되면 3-2)와 같은 식이 나오게 되어, $\hat{w}$ 을 구할 수 있게 된다.
즉, $(\mathbf{X}^T \mathbf{X})$ 의 역행렬을 구하게 되면, $\hat{w}$ 을 유추할 수 있게 된다.

역행렬 방법을 자세하게 알아보자.

\hat{w} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}

\text{역행렬 공식 (2x2 행렬):} \quad \begin{bmatrix} a & b \\ c & d \end{bmatrix}^{-1} = \frac{1}{ad - bc} \begin{bmatrix} d & -b \\ -c & a \end{bmatrix}

위의 공식을 활용해서 아래의 수식을 풀 수 있다.

\mathbf{X}^T \mathbf{X} = \begin{bmatrix} m & \sum x^{(i)} \\ \sum x^{(i)} & \sum (x^{(i)})^2 \end{bmatrix} = \begin{bmatrix} m & m\bar{x} \\ m\bar{x} & \sum (x^{(i)})^2 \end{bmatrix}

determinent를 구하기 위해서 ad-bc를 해주어야 한다.
$m × \sum (x^{(i)})^2 - m\bar{x} × m\bar{x}$ 를 하게 되면 아래와 같이 나온다.

|\mathbf{X}^T \mathbf{X}| = m \sum (x^{(i)})^2 - (m \bar{x})^2 \\ = m \left( \sum (x^{(i)})^2 - m \bar{x}^2 \right) \\ = m \sum (x^{(i)} - \bar{x})^2

위에서 말한 것과 같이 $\mathbf{X}^T \mathbf{X}$ 행렬식은 $2 × 2$ 행렬이므로, $ad - bc$ 형태로 계산된다.
$\sum x^{(i)} = m\bar{x}$ 를 이용해 정리한다.
제곱 분배법칙을 적용해 $(m\bar{x})^2 = m^2\bar{x}^2$ 이용한다.
분산의 정의 $\sum (x^{(i)} - \bar{x})^2$ 와 동일한 형태로 정리를 할 수 있다.
즉, $|\mathbf{X}^T \mathbf{X}|$ 는 입력 벡터의 분산에 비례한다.

variation 형태로 정리가 되어서, 행렬 식이 $m$ 과 $x^{(i)}$ 값을 이용한 variation으로 표현할 수 있다.

(\mathbf{X}^T \mathbf{X})^{-1} = \frac{1}{m \sum (x^{(i)} - \bar{x})^2} \begin{bmatrix} \sum (x^{(i)})^2 & -m\bar{x} \\ - m\bar{x} & m \end{bmatrix} \\ = \frac{1}{\sum (x^{(i)} - \bar{x})^2} \begin{bmatrix} \sum (x^{(i)})^2 / m & -\bar{x} \\ -\bar{x} & m \end{bmatrix}

일반적인 2x2 행렬의 역행렬 공식을 활용하여 $\mathbf{X}^T\mathbf{X}$ 의 역을 계산했다.
$\sum x^{(i)} = m\bar{x}$ 와 분산성질 $\sum (x^{(i)} - \bar{x})^2$ 을 이용해 분산 기반으로 정리된 형태이다.
두 번째 식은 각 항을 $m$ 으로 나눈 형태로 평균 기반 표현으로 단순화했다.

$X$ transpose 역행렬을 구할 수 없는 경우

데이터의 $m$ 이 feature의 개수 $n$ 일 때, m이 n보다 작을 때이다.
하지만 오늘날 데이터가 작은 경우는 거의 없다고 볼 수 있다.

\hat{\mathbf{w}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}

선형 회귀의 최소제곱해 공식

\hat{w} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}= \begin{bmatrix} \hat{w}_0 \\ \hat{w}_1 \\ \end{bmatrix} \\ = \frac{1}{\sum (x^{(i)} - \bar{x})^2} \begin{bmatrix} \sum (x^{(i)})^2 / m & -\bar{x} \\ -\bar{x} & m \end{bmatrix} \begin{bmatrix} \sum y^{(i)} \\ \sum x^{(i)} y^{(i)} \end{bmatrix}

역행렬은 이전의 수식처럼 분산 기반으로 유도한다.

\hat{w}_1 = \frac{\sum x^{(i)} y^{(i)} - m \bar{x} \bar{y}}{\sum (x^{(i)} - \bar{x})^2}

\hat{w}_0 = \bar{y} - \hat{w}_1 \bar{x}

여러 개의 변수일 경우?

\mathbf{X}^T \mathbf{X} = \begin{bmatrix} m & \sum x^{(i)} \\ \sum x^{(i)} & \sum (x^{(i)})^2 \end{bmatrix}

위의 수식이 확대된다.

결론

\hat{w} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^Ty

Normal equation

$\mathbf{X}^T\mathbf{X}$ 의 역행렬이 존재할 때 사용한다.
Iteration 등 사용자 지정 Hyper-parameter가 없다
Feature가 많으면 계산 속도가 느려진다.

연

Whatever I want | Interested in DFIR, Security, Infra, Cloud

이전 포스트