[ML] Probability Perspective : Linear Regression

Yeon·2023년 12월 2일
0

ML

목록 보기
2/7

Log 성질

  1. 곱셈을 덧셈으로 변환:
    로그 함수는 곱셈을 덧셈으로 변환하는 성질을 가집니다. 즉, 두 양수 aabb에 대해 다음이 성립합니다.
    log(ab)=log(a)+log(b)\log(ab) = \log(a) + \log(b)

  2. 지수 법칙:
    로그 함수는 지수를 밖으로 가져오는 성질이 있습니다. 즉, 양수 aa와 실수 rr에 대해 다음이 성립합니다.
    log(ar)=rlog(a)\log(a^r) = r \cdot \log(a)

  3. 지수 함수
    자연상수 ee를 밑으로 하는 지수 함수 exe^x를 의미한다. exp(x)exp(x)eexx 제곱으로, 어떤 수의 지수적 증가를 의미합니다.

  4. 지수 함수와 로그함수의 관계
    expexploglog는 서로의 역함수 관계에 있습니다.
    exp(log(x))=xexp(log(x)) = x
    log(exp(x))=xlog(exp(x)) = x

  5. ln(x)ln(x)의 미분
    ddxln(x)=1x\frac{d}{dx}ln(x) = \frac{1}{x}

  6. 밑이 e가 아닌 로그 함수 loga(x)log_a(x)의 미분
    ddxloga(x)=1xln(a)\frac{d}{dx}log_a(x) = \frac{1}{xln(a)}

확률론적 관점에서의 Linear Regression

선형 회귀 모델은 종속 변수 yy가 독립 변수 xx의 선형 조합과 가우시안(정규) 노이즈의 합으로 모델링 될 수 있다고 가정합니다.

P(yx,Θ)=N(ywTx,σ2)P(y|x, \Theta) = \mathcal{N}(y|\mathbf{w}^T\mathbf{x}, \sigma^2)

여기서:

  • N\mathcal{N} 은 정규 분포를 나타냅니다.
  • w\mathbf{w}는 모델 파라미터(가중치) 벡터입니다.
  • σ2\sigma^2 는 노이즈의 분산을 나타냅니다.
  • Θ\Theta는 모델 파라미터의 집합을 의미합니다.

로그-우도(Log-likelihood)

로그-우도 함수는 주어진 데이터와 모델 파라미터에 대한 확률 분포의 로그를 취한 것입니다. 선형 회귀에서 로그-우도는 다음과 같이 주어집니다.

(Θ)=n=1Nlog[12πσ2exp(12σ2(y(n)wTx(n))2)]\ell(\Theta) = \sum_{n=1}^{N} \log \left[ \frac{1}{\sqrt{2\pi\sigma^2}} \exp \left( - \frac{1}{2\sigma^2} (y^{(n)} - \mathbf{w}^T\mathbf{x}^{(n)})^2 \right) \right]

이를 단순화하면 다음과 같습니다.

(Θ)=12σ2n=1N(y(n)wTx(n))2N2log(2πσ2)\ell(\Theta) = - \frac{1}{2\sigma^2} \sum_{n=1}^{N} (y^{(n)} - \mathbf{w}^T\mathbf{x}^{(n)})^2 - \frac{N}{2} \log(2\pi\sigma^2)

로그-우도를 최대화하는 것은 제곱 잔차합(Residual Sum of Squares, RSS)을 최소화하는 것과 동일합니다. 이는 곧 손실 함수를 최소화하는 것과 같습니다.

Residual Sum of Square (RSS)

RSS는 관측값과 모델 예측값 사이의 차이의 제곱합입니다. 로그-우도 함수에서 첫 번째 항만을 고려할 때, RSS는 다음과 같이 주어집니다.

RSS(w)=12n=1N(y(n)wTx(n))2RSS(\mathbf{w}) = \frac{1}{2} \sum_{n=1}^{N} (y^{(n)} - \mathbf{w}^T\mathbf{x}^{(n)})^2

벡터와 행렬을 사용하면 RSS는 다음과 같이 표현됩니다.

RSS(w)=12yXw2=12(yXw)T(yXw)RSS(\mathbf{w}) = \frac{1}{2} \| \mathbf{y} - \mathbf{Xw} \|^2 = \frac{1}{2} (\mathbf{y} - \mathbf{Xw})^T (\mathbf{y} - \mathbf{Xw})

12(yXw)T(yXw)\frac{1}{2} (\mathbf{y} - \mathbf{Xw})^T (\mathbf{y} - \mathbf{Xw}) 는 벡터의 놈(norm)의 제곱을 행렬의 형태로 나타낸 것입니다. 벡터의 놈의 제곱은 벡터와 그 전치 벡터의 내적(dot product)과 같습니다. 즉, 벡터 a\mathbf{a}의 놈의 제곱은 a2=aTa\| \mathbf{a} \|^2 = \mathbf{a}^T\mathbf{a}입니다.

RSS를 최소화하는 w\mathbf{w}를 찾기 위해, RSS의 그라디언트를 0으로 설정합니다.

wRSS(w)=XTXwXTy\nabla_{\mathbf{w}} RSS(\mathbf{w}) = \mathbf{X}^T\mathbf{Xw} - \mathbf{X}^T\mathbf{y}

이 방정식을 w\mathbf{w}에 대해 풀면 최적의 가중치 벡터를 찾을 수 있으며, 이는 다음과 같은 해석적 해를 갖습니다.

w=(XTX)1XTy\mathbf{w} = (\mathbf{X}^T\mathbf{X})^{-1}\mathbf{X}^T\mathbf{y}

If X is full rank(the columns of X are linearly independent), the elast square object has a unique global minimum.
예를 들어, data collinearity, MulitCollinearity일 경우엔 X는 Full rank가 아니다. collinearity라는 것은 결국엔 a column이 b column의 배수라면 둘 중 한 column은 필요없게 된다.


참고 문헌

https://angeloyeo.github.io/2020/07/17/MLE.html

profile
Viel Erfolg!

0개의 댓글