[Pattern Recognition] 05. LS vs MLE

김기진·2025년 12월 22일

pattern-recognition

목록 보기
5/10

MLE vs LS

MLE vs LS

  • MLE 는 오류 분포를 모델링하고 가능도 함수를 최대화함으로써 더 포괄적인 접근 방식 제공
  • MLE 에서는 오차항에 정규 분포를 가정하여 추정치의 유도 및 계산이 단순화 됨
  • LS 는 더 간단하지만 오류 분포를 모델링하지 않고 오류를 최소화하는데 중점

접근 방식

  • LS 는 예측값과 실제값 간의 오차를 최소화하는 데 중점
  • MLE 는 데이터 관측할 확률을 최대화 하는 파라미터를 찾는 데 중점

오차항

  • LS 는 오차가 정규 분포를 따르고 일정한 분산을 갖는다고 가정
  • MLE에서의 오차항: 오차항은 핵심 요소로 예측을 더 정확하고 신뢰할 수 있게 함

선형 회귀 파라미터 추정 방법

해결책 1: 최소제곱법 (Least Squares)

  • 모델: yi=b1xi+b0y_i = b_1 x_i + b_0

  • 목표: 예측 오차를 최소화 하는 파라미터 b1b_1b2b_2 를 추정

  • 비용 함수

    • 비용 함수 QQ는 관측된 값 yiy_i와 예측된 값 y^i\hat{y}_i 사이의 제곱 차이의 합으로 정의됨
    • Q=i=1n(yiy^i)2=i=1n(yi(b0+b1xi))2Q = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (b_0 + b_1 x_i))^2
  • 계산 단계

    1. 비용 함수 QQb0b_0b1b_1 로 편미분 하고, 그 값을 0으로 설정하여 최소화함.
    2. 결과로 나오는 추정치 b^0\hat{b}_0와 b^1\hat{b}_1이 예측 오차를 최소화하는 값입니다.
  • 수식

    • Q=Σi=1nei2=Σi=1n(yiy^i)2=Σi=1n(yi(b0+b1xi))2Q=\Sigma_{i=1}^{n}e_{i}^{2}=\Sigma_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}=\Sigma_{i=1}^{n}(y_{i}-(b_{0}+b_{1}x_{i}))^{2}
    • β0^=b0\hat{\beta_{0}}=b_{0} (b0b_{0}에 대한 편미분): Qb0=0\frac{\partial Q}{\partial b_{0}} = 0
    • β1^=b1\hat{\beta_{1}}=b_{1} (b1b_{1}에 대한 편미분): Qb1=0\frac{\partial Q}{\partial b_{1}} = 0
    • σ2=var(ϵi)=s2=Σi=1n(yiy^i)2n2=제곱 오류의 합n2\sigma^{2}=var(\epsilon_{i})=s^{2}=\frac{\Sigma_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}}{n-2}=\frac{\text{제곱 오류의 합}}{n-2}

해결책 2: 최대 가능도 추정 (Maximum Likelihood Estimation)

  • 목표

    • = 가능도를 최대화하는 매개변수(θ\theta; β1\beta_{1}β0\beta_{0}) 찾기
    • = 가능도를 최대화하는 평균(μ\mu) 및 분산(σ2\sigma^{2}) 찾기
    • = 확률 밀도 함수(PDF; p(y))p(y)) 계산하기
  • 우도 함수 가정

    • ϵN(0,σ2)\epsilon\sim N(0,\sigma^{2}); 가정
    • yiN(f(xi),σ2)=YN(f(xθ),σ2)y_{i}\sim N(f(x_{i}),\sigma^{2})=Y\sim N(f(x|\theta),\sigma^{2}) (오류의 분포를 따름)
  • 우도 함수 최대화:

    • L(θ)=Maxi=1np(yixi,θ)=Maxi=1n12πσ2exp{(yif(xi;θ))22σ2}L(\theta)=Max\prod_{i=1}^{n}p(y_{i}|x_{i},\theta)=Max\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}exp\{-\frac{(y_{i}-f(x_{i};\theta))^{2}}{2\sigma^{2}}\}
    • β0^\hat{\beta_{0}} (b0b_{0}에 대한 편미분): L(θ)b0=0\frac{\partial L(\theta)}{\partial b_{0}} = 0
    • β1^\hat{\beta_{1}} (b1b_{1}에 대한 편미분): L(θ)b1=0\frac{\partial L(\theta)}{\partial b_{1}} = 0
    • σ2^\hat{\sigma^{2}} (σ2\sigma^{2}에 대한 편미분): L(θ)σ2=0\frac{\partial L(\theta)}{\partial \sigma^{2}} = 0
  • 로그 가능도 최대화: 계산의 편의를 위해 로그를 취함

    • logL(b,σ2)=log(i=1n12πσ2exp{(yi(b0+b1xi))22σ2})\log L(b,\sigma^{2}) = \log(\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}exp\{-\frac{(y_{i}-(b_0+b_1x_i))^{2}}{2\sigma^{2}}\})
    • =i=1n[log(12πσ2)(yi(b0+b1xi))22σ2]= \sum_{i=1}^{n} [\log(\frac{1}{\sqrt{2\pi\sigma^{2}}}) - \frac{(y_{i}-(b_0+b_1x_i))^{2}}{2\sigma^{2}}]
    • =i=1n[12log(2πσ2)(yi(b0+b1xi))22σ2]= \sum_{i=1}^{n} [-\frac{1}{2}\log(2\pi\sigma^{2}) - \frac{(y_{i}-(b_0+b_1x_i))^{2}}{2\sigma^{2}}]
    • =n2log(2πσ2)12σ2i=1n(yi(b0+b1xi))2= -\frac{n}{2}\log(2\pi\sigma^{2}) - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-(b_0+b_1x_i))^{2}
  • 음의 로그 가능도 최소화: 최대화 문제를 최소화 문제로 변환하여 최적화 알고리즘 적용을 용이하게 함

    • logL(b,σ2)=n2log(2πσ2)+12σ2i=1n(yi(b0+b1xi))2-\log L(b,\sigma^{2}) = \frac{n}{2}\log(2\pi\sigma^{2}) + \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-(b_0+b_1x_i))^{2}

결론

  • LS 목표: MSE=Σi=1nei2=Σi=1n(yiy^i)2=Σi=1n(yi(b0+b1xi))2MSE=\Sigma_{i=1}^{n}e_{i}^{2}=\Sigma_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}=\Sigma_{i=1}^{n}(y_{i}-(b_{0}+b_{1}x_{i}))^{2} 최소화 하기
  • MLE 목표: NLL=logL(b,σ2)=n2log(2πσ2)+12σ2i=1n(yi(b0+b1xi))2NLL=-\log L(b,\sigma^{2}) = \frac{n}{2}\log(2\pi\sigma^{2}) + \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-(b_0+b_1x_i))^{2} 최소화 하기

최소제곱법은 기하학적인 오차 최소화에, 최대 가능도 추정은 통계적인 데이터 생성 확률 최대화에 기반을 두지만, 결론적으로 가우시안 분포를 가정한 MLE 는 LS 와 수학적으로 동일합니다.

0개의 댓글