[Pattern Recognition] 05. LS vs MLE

김기진·2025년 12월 22일

pattern-recognition

목록 보기

5/10

MLE vs LS

접근 방식

오차항

모델: $y_i = b_1 x_i + b_0$
목표: 예측 오차를 최소화 하는 파라미터 $b_1$ 과 $b_2$ 를 추정
비용 함수
- 비용 함수 $Q$ 는 관측된 값 $y_i$ 와 예측된 값 $\hat{y}_i$ 사이의 제곱 차이의 합으로 정의됨
- $Q = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 = \sum_{i=1}^{n} (y_i - (b_0 + b_1 x_i))^2$
계산 단계
1. 비용 함수 $Q$ 를 $b_0$ 와 $b_1$ 로 편미분 하고, 그 값을 0으로 설정하여 최소화함.
2. 결과로 나오는 추정치 $\hat{b}_0$ 와 $\hat{b}_1$ 이 예측 오차를 최소화하는 값입니다.
수식
- $Q=\Sigma_{i=1}^{n}e_{i}^{2}=\Sigma_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}=\Sigma_{i=1}^{n}(y_{i}-(b_{0}+b_{1}x_{i}))^{2}$
- $\hat{\beta_{0}}=b_{0}$ ( $b_{0}$ 에 대한 편미분): $\frac{\partial Q}{\partial b_{0}} = 0$
- $\hat{\beta_{1}}=b_{1}$ ( $b_{1}$ 에 대한 편미분): $\frac{\partial Q}{\partial b_{1}} = 0$
- $\sigma^{2}=var(\epsilon_{i})=s^{2}=\frac{\Sigma_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}}{n-2}=\frac{\text{제곱 오류의 합}}{n-2}$

목표
- = 가능도를 최대화하는 매개변수( $\theta$ ; $\beta_{1}$ 및 $\beta_{0}$ ) 찾기
- = 가능도를 최대화하는 평균( $\mu$ ) 및 분산( $\sigma^{2}$ ) 찾기
- = 확률 밀도 함수(PDF; $p(y))$ 계산하기
우도 함수 가정
- $\epsilon\sim N(0,\sigma^{2})$ ; 가정
- $y_{i}\sim N(f(x_{i}),\sigma^{2})=Y\sim N(f(x|\theta),\sigma^{2})$ (오류의 분포를 따름)
우도 함수 최대화:
- $L(\theta)=Max\prod_{i=1}^{n}p(y_{i}|x_{i},\theta)=Max\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}exp\{-\frac{(y_{i}-f(x_{i};\theta))^{2}}{2\sigma^{2}}\}$
- $\hat{\beta_{0}}$ ( $b_{0}$ 에 대한 편미분): $\frac{\partial L(\theta)}{\partial b_{0}} = 0$
- $\hat{\beta_{1}}$ ( $b_{1}$ 에 대한 편미분): $\frac{\partial L(\theta)}{\partial b_{1}} = 0$
- $\hat{\sigma^{2}}$ ( $\sigma^{2}$ 에 대한 편미분): $\frac{\partial L(\theta)}{\partial \sigma^{2}} = 0$

로그 가능도 최대화: 계산의 편의를 위해 로그를 취함
- $\log L(b,\sigma^{2}) = \log(\prod_{i=1}^{n}\frac{1}{\sqrt{2\pi\sigma^{2}}}exp\{-\frac{(y_{i}-(b_0+b_1x_i))^{2}}{2\sigma^{2}}\})$
- $= \sum_{i=1}^{n} [\log(\frac{1}{\sqrt{2\pi\sigma^{2}}}) - \frac{(y_{i}-(b_0+b_1x_i))^{2}}{2\sigma^{2}}]$
- $= \sum_{i=1}^{n} [-\frac{1}{2}\log(2\pi\sigma^{2}) - \frac{(y_{i}-(b_0+b_1x_i))^{2}}{2\sigma^{2}}]$
- $= -\frac{n}{2}\log(2\pi\sigma^{2}) - \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-(b_0+b_1x_i))^{2}$
음의 로그 가능도 최소화: 최대화 문제를 최소화 문제로 변환하여 최적화 알고리즘 적용을 용이하게 함
- $-\log L(b,\sigma^{2}) = \frac{n}{2}\log(2\pi\sigma^{2}) + \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-(b_0+b_1x_i))^{2}$

LS 목표: $MSE=\Sigma_{i=1}^{n}e_{i}^{2}=\Sigma_{i=1}^{n}(y_{i}-\hat{y}_{i})^{2}=\Sigma_{i=1}^{n}(y_{i}-(b_{0}+b_{1}x_{i}))^{2}$ 최소화 하기
MLE 목표: $NLL=-\log L(b,\sigma^{2}) = \frac{n}{2}\log(2\pi\sigma^{2}) + \frac{1}{2\sigma^{2}}\sum_{i=1}^{n}(y_{i}-(b_0+b_1x_i))^{2}$ 최소화 하기

최소제곱법은 기하학적인 오차 최소화에, 최대 가능도 추정은 통계적인 데이터 생성 확률 최대화에 기반을 두지만, 결론적으로 가우시안 분포를 가정한 MLE 는 LS 와 수학적으로 동일합니다.