[Pattern Recognition] 04. MLE

김기진·2025년 12월 22일

pattern-recognition

목록 보기

4/10

현실 세계의 데이터 특성

데이터 노이즈
- 실제 데이터는 본질적으로 노이즈가 많음 (측정 오류, 관측되지 않은 변수, 무작위 변동)
데이터 변동성
- 실제 데이터에는 변동성과 오차가 포함됨
- 오차항 없는 모델은 변동성을 설명하지 못하므로 실제 데이터에 적용시 부정확성을 초래함

오차항의 필요성

왜 오차는 정규 분포를 가정하는가?

정규 분포란?

오차항의 가정

오차항의 확률적 특성

단순 선형 모델은 다음과 같이 표기됨
- $y_i = \beta_1 x_i + \beta_0 + \epsilon_i$
이 모델은 다음과 같은 가정을 전제로 함
- $E[\epsilon_i] = 0$ : 오차항의 평균(즉, 기댓값)이 0
- $Var[\epsilon_i] = \sigma^2$ : 오차항의 분산이 시그마 제곱으로 일정
- $Cov(\epsilon_i, \epsilon_j) = 0 \quad (\text{for } i \neq j)$ : 관측치 간에 오차항이 상관되지 않음

종속 변수 $y$ 와 독립 변수 $x$ 는 알려져 있음.
계수 $\beta_0$ 와 $\beta_1$ , 그리고 오차항 $\epsilon$ 과 $Var(\epsilon) = \sigma^2$ 는 알려지지 않았으며 추정해야 함.

모델: $y_i = \beta_1 x_i + \beta_0 + \epsilon_i$
가정
- 오차항 $\epsilon$ 은 정규 분포를 따름
- $y_i$ 역시 모델 예측 $f(x_i) = \beta_1 x_i + \beta_0$ 를 중심으로 정규 분포를 따름
- $f(x_i) = \beta_1 x_i + \beta_0$ 이고 $\theta = (\beta_0, \beta_1)$ 는 추정해야 할 파라미터

가능도 함수
- 가능도: 관측된 데이터 포인트 집합에 대한 가능도 함수 $L(\theta)$ 는 각 데이터 포인트의 개별 확률의 곱
- 로그 가능도: 계산을 단순화 하기 위해 로그를 취함 (로그 가능도 최대화와 동일 효과)
- $L(\theta) = \prod_{i=1}^{n} p(y_i | x_i, \theta)$
- $\log L(\theta) = \sum_{i=1}^{n} \log p(y_i | x_i, \theta)$

확률 밀도 함수 (pdf)
- $\theta = (\beta_1, \beta_0)$ 가 주어졌을 때 $y_i$ 의 PDF는 다음과 같음
- $p(y_i | x_i, \theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right\}$
- 가우시안 가정
목표
- 가능도를 최대화 하는 파라미터를 찾기 ( $\beta_0$ $\beta_1$ )
- 가능도를 최대화 하는 $\mu$ 와 $\sigma^2$ 찾기
- PDF 계산
계산 과정
- $\hat{\beta}_0 = \frac{\partial L(\theta)}{\partial \beta_0} = 0$
- $\hat{\beta}_1 = \frac{\partial L(\theta)}{\partial \beta_1} = 0$
- $\hat{\sigma}^2 = \frac{\partial L(\theta)}{\partial \sigma^2} = 0$