[Pattern Recognition] 04. MLE
최대우도추정이란?
- 정의: 우도 함수를 최대화하여 모델의 파라미터를 추정하는 통계적 방법
- 목표: 우도 함수 최대화 (모델이 데이터를 관측할 확률 극대화)
- 용도: 회귀, 분류, 확률 분포 파리미터 추정에 사용됨
오차항의 이해
현실 세계의 데이터 특성
- 데이터 노이즈
- 실제 데이터는 본질적으로 노이즈가 많음 (측정 오류, 관측되지 않은 변수, 무작위 변동)
- 데이터 변동성
- 실제 데이터에는 변동성과 오차가 포함됨
- 오차항 없는 모델은 변동성을 설명하지 못하므로 실제 데이터에 적용시 부정확성을 초래함
오차항의 필요성
- 실제 데이터의 불완전성을 반영
- 완벽한 모델은 없으며 예측에는 항상 일정 수준의 오차가 있을 것임을 인정
- 변동성 포착
- 오차항은 실제 데이터에서 볼 수 있는 변동성을 더 잘 반영하도록 함
- 예측을 더 현실적이고 신뢰 할 수 있도록함
정규 분포와 오차항
왜 오차는 정규 분포를 가정하는가?
- 중심 극한 정리: 표본의 크기가 커질 수록 표본 평균들의 분포는 정규 분포를 따름
- 수학적 편의성: 추정치 유도 및 계산을 단순화 하는 수학적 특성을 가지고 있음
정규 분포란?
- 종형 곡선 또는 가우시안 분포라고도 부름
- X∼N(μ,σ2)
- Z=σX−μ
- 표준정규분포=Z∼N(0,1)
오차항의 가정
- ϵi (오차항) 은 평균 0과 일정한 분산 σ2 을 가지는 정규분포를 따른다고 가정함
- 정규 분포의 속성을 사용하여 우도를 최대화하는 파라미터를 추정 할 수 있게함
오차항의 확률적 특성
- 오차항을 추가하면 종속 변수 y 는 더 이상 단순한 선형 함수가 아닌 확률 변수를 따르게 됨
- 종속 변수 y 는 결정론적에서 확률론적으로 바뀜
- 종속 변수 y 는 평균값 β0+β1xi와 분산 σ2를 가지는 확률 변수임
선형 회귀에서의 적용
-
단순 선형 모델은 다음과 같이 표기됨
- yi=β1xi+β0+ϵi
-
이 모델은 다음과 같은 가정을 전제로 함
- E[ϵi]=0: 오차항의 평균(즉, 기댓값)이 0
- Var[ϵi]=σ2: 오차항의 분산이 시그마 제곱으로 일정
- Cov(ϵi,ϵj)=0(for i=j) : 관측치 간에 오차항이 상관되지 않음
- 종속 변수 y와 독립 변수 x는 알려져 있음.
- 계수 β0와 β1, 그리고 오차항 ϵ 과 Var(ϵ)=σ2는 알려지지 않았으며 추정해야 함.
최대우도추정의 계산
- 모델: yi=β1xi+β0+ϵi
- 가정
- 오차항 ϵ 은 정규 분포를 따름
- yi 역시 모델 예측 f(xi)=β1xi+β0를 중심으로 정규 분포를 따름
- f(xi)=β1xi+β0이고 θ=(β0,β1)는 추정해야 할 파라미터
- 가능도 함수
- 가능도: 관측된 데이터 포인트 집합에 대한 가능도 함수 L(θ)는 각 데이터 포인트의 개별 확률의 곱
- 로그 가능도: 계산을 단순화 하기 위해 로그를 취함 (로그 가능도 최대화와 동일 효과)
- L(θ)=∏i=1np(yi∣xi,θ)
- logL(θ)=∑i=1nlogp(yi∣xi,θ)
-
확률 밀도 함수 (pdf)
- θ=(β1,β0)가 주어졌을 때 yi의 PDF는 다음과 같음
- p(yi∣xi,θ)=2πσ21exp{−2σ2(yi−(β0+β1xi))2}
- 가우시안 가정
-
목표
- 가능도를 최대화 하는 파라미터를 찾기 (β0 β1)
- 가능도를 최대화 하는 μ 와 σ2 찾기
- PDF 계산
-
계산 과정
- β^0=∂β0∂L(θ)=0
- β^1=∂β1∂L(θ)=0
- σ^2=∂σ2∂L(θ)=0