[Google AI BootCamp MML Study]9. Linear Regression(선형회귀)-Maximum Likelihood as Orthogonal Projection

Uomnf97·2022년 8월 20일
0

MML Ariticle

목록 보기
4/4

이글은 Mathematics for Machine Learning 의 Chapter 6의 일부분을 정리한 글입니다. 의역이 포함되어 있으며, Google ML BootCamp 스터디에서 정리한 글을 보고 싶으시다면 이 링크를 따라가시면 됩니다.

최대 우도 함수(Maximum Likelihood Function)과 최대 사후 확률(MAP)의 기하학적 접근

최대우도 및 최대 사후 확률(MAP) 추정치를 도출하기 위해 많은 내용의 대수학을 다뤘다. 이제 최대우도 추정에 대한 기하학적 해석에 대해서 살펴보자.

일차원 데이터에 대한 기하학적인 접근

다음과 같은 간단한 선형 회귀 모델(Linear Regression)이 있다고 가정하자.

y=xθ+ϵ,ϵN(0,σ2)y = x\theta + \epsilon, \epsilon \sim \mathcal{N}(0,\sigma^2)

위 식은 f:fRf : f \rightarrow \mathbb{R}이고, 원점을 지나는 직선이라고 가정한다. 이 때 매개변수 θ\theta는 선형 회귀 함수의 기울기를 의미한다. {(x1,y1),...,(xN,yN)}\{(x_1, y_1), . . . , (x_N , y_N )\}와 같이 훈련데이터가 주어졌을 때 기울기 매개변수의 최대 우도 함수는 다음과 같다. 단(X=[x1,...,xN]TRN,y=[y1,...,yN]TRNX = [x_1,...,x_N]^T \in \mathbb{R}^N, y = [y_1,...,y_N]^T \in \mathbb{R}^N).

θML=(XTX)1XTy=XTyXTXR\theta_{ML} = (X^TX)^{-1}X^Ty= \frac{X^Ty}{X^TX} \in \mathbb{R}

이 때, 이 훈련 데이터를 이용해서 아래와 같은 회귀값을 얻을 수 있다.

XθML=XXTyXTX=XXTXTXyX\theta_{ML}= X\frac{X^Ty}{X^TX}=\frac{XX^T}{X^TX}y

yyXθX\theta 사이의 최소 제곱 오차(mean squarred error)로 근사치를 얻을 수 있다.

y=xθy=x\theta의 선형 회귀 함수는 직선의 방정식의 해를 찾는 문제와 같다고 할 수 있다. 그러므로 Chapter 2,3장에서 설명한 선형대수학(linear Algebra)와해석기하학(analytic Geometry)의 개념과 관련지어 생각할 수 있다. 위 세번째 식을 주의깊게 보면, 첫번째 식의 θML\theta_{ML} X에 걸쳐 있는 1차원 부분 공간에 y를 효과적으로 정사영이 된것을 확인할 수 있다. Section 3.8, XXTXTX\frac{XX^T}{X^TX}를 정사영 행렬로, θML\theta_{ML}XXXθMLX\theta_{ML}에 의해 확장된 RN\mathbb{R}_N의 1차원 부분 공간에 대한 투영 좌표로(부분 공간에 대한 y의 정사영)으로 식별될 수 있다.

따라서 최대 우도 해는 관측치 y에 "가장 가까운" X로 확장되는 부분공간에서 벡터를 찾아 기하학적으로 최적의 해법을 제공한다 여기서 "가장 가까운" 것은 함수 값 yny_n에서 xnθx_n\theta까지의 가장 작은 (제곱) 거리를 의미하며, 이는 정사영 과정을 통해 달성된다.

다차원 데이터에 대한 기하학적인 접근

이를 다차원의 경우로 확장시켜서 생각해보면, 아래와 같은 일반적인 선형회귀 문제로 접근할 수 있다.

y=ϕT(x)θ+ϵ,ϵNy= \phi^T(x)\theta + \epsilon, \epsilon \sim \mathcal{N}

벡터 값의 특징(Vector-valued Feature)인 ϕ(x)RK\phi(x) \in \mathbb{R}^K를 이용하여 최대 우도를 다음과 같이 해석할 수 있다.

yΦθMLy \approx \Phi\theta_{ML}
θML=(ΦTΦ)1ΦTy\theta_{ML} = (\Phi^T\Phi)^{-1}\Phi^Ty

위 값은 KK 차원의 부분공간을 사영 시켜 특징 행렬(feature matrix) Φ\Phi의 열에 확장된 것과 같다. 만약 특징 함수(Feature function) ϕk\phi_k의 계산을 위해 활용한 Φ\Phi가 직교정규(Orthonormal)하다면, ΦTΦ=I\Phi^T\Phi = I인 특별한 경우가 되고, 아래의 정사영을 수행할 수 있다.

Φ(ΦTΦ)1ΦTy=ΦΦTy=k=1K(ϕkϕkT)y\Phi(\Phi^T\Phi)^{-1}\Phi^Ty = \Phi\Phi^Ty = \sum_{k=1}^K (\phi_k\phi_k^T)y

위 식과 같이 y에 사영된 값의 합으로 간단하게 표현할 수 있다.

profile
사회적 가치를 실현하는 프로그래머

0개의 댓글