[Pattern Recognition] 04. MLE

김기진·2025년 12월 22일

pattern-recognition

목록 보기
4/10

최대우도추정이란?

  • 정의: 우도 함수를 최대화하여 모델의 파라미터를 추정하는 통계적 방법
  • 목표: 우도 함수 최대화 (모델이 데이터를 관측할 확률 극대화)
  • 용도: 회귀, 분류, 확률 분포 파리미터 추정에 사용됨

오차항의 이해

현실 세계의 데이터 특성

  • 데이터 노이즈
    • 실제 데이터는 본질적으로 노이즈가 많음 (측정 오류, 관측되지 않은 변수, 무작위 변동)
  • 데이터 변동성
    • 실제 데이터에는 변동성과 오차가 포함됨
    • 오차항 없는 모델은 변동성을 설명하지 못하므로 실제 데이터에 적용시 부정확성을 초래함

오차항의 필요성

  • 실제 데이터의 불완전성을 반영
    • 완벽한 모델은 없으며 예측에는 항상 일정 수준의 오차가 있을 것임을 인정
  • 변동성 포착
    • 오차항은 실제 데이터에서 볼 수 있는 변동성을 더 잘 반영하도록 함
    • 예측을 더 현실적이고 신뢰 할 수 있도록함

정규 분포와 오차항

왜 오차는 정규 분포를 가정하는가?

  • 중심 극한 정리: 표본의 크기가 커질 수록 표본 평균들의 분포는 정규 분포를 따름
  • 수학적 편의성: 추정치 유도 및 계산을 단순화 하는 수학적 특성을 가지고 있음

정규 분포란?

  • 종형 곡선 또는 가우시안 분포라고도 부름
  • XN(μ,σ2)X \sim N(\mu, \sigma^2)
  • Z=XμσZ = \frac{X - \mu}{\sigma}
  • 표준정규분포=ZN(0,1)표준정규분포=Z \sim N(0, 1)

오차항의 가정

  • ϵi\epsilon_i (오차항) 은 평균 0과 일정한 분산 σ2\sigma^2 을 가지는 정규분포를 따른다고 가정함
  • 정규 분포의 속성을 사용하여 우도를 최대화하는 파라미터를 추정 할 수 있게함

오차항의 확률적 특성

  • 오차항을 추가하면 종속 변수 y 는 더 이상 단순한 선형 함수가 아닌 확률 변수를 따르게 됨
  • 종속 변수 y 는 결정론적에서 확률론적으로 바뀜
  • 종속 변수 yy 는 평균값 β0+β1xi\beta_0 + \beta_1 x_i와 분산 σ2\sigma^2를 가지는 확률 변수임

선형 회귀에서의 적용

  • 단순 선형 모델은 다음과 같이 표기됨

    • yi=β1xi+β0+ϵiy_i = \beta_1 x_i + \beta_0 + \epsilon_i
  • 이 모델은 다음과 같은 가정을 전제로 함

    • E[ϵi]=0E[\epsilon_i] = 0: 오차항의 평균(즉, 기댓값)이 0
    • Var[ϵi]=σ2Var[\epsilon_i] = \sigma^2: 오차항의 분산이 시그마 제곱으로 일정
    • Cov(ϵi,ϵj)=0(for ij)Cov(\epsilon_i, \epsilon_j) = 0 \quad (\text{for } i \neq j) : 관측치 간에 오차항이 상관되지 않음
  • 종속 변수 yy와 독립 변수 xx는 알려져 있음.
  • 계수 β0\beta_0β1\beta_1, 그리고 오차항 ϵ\epsilonVar(ϵ)=σ2Var(\epsilon) = \sigma^2는 알려지지 않았으며 추정해야 함.

최대우도추정의 계산

  • 모델: yi=β1xi+β0+ϵiy_i = \beta_1 x_i + \beta_0 + \epsilon_i
  • 가정
    • 오차항 ϵ\epsilon 은 정규 분포를 따름
    • yiy_i 역시 모델 예측 f(xi)=β1xi+β0f(x_i) = \beta_1 x_i + \beta_0를 중심으로 정규 분포를 따름
    • f(xi)=β1xi+β0f(x_i) = \beta_1 x_i + \beta_0이고 θ=(β0,β1)\theta = (\beta_0, \beta_1)는 추정해야 할 파라미터
  • 가능도 함수
    • 가능도: 관측된 데이터 포인트 집합에 대한 가능도 함수 L(θ)L(\theta)는 각 데이터 포인트의 개별 확률의 곱
    • 로그 가능도: 계산을 단순화 하기 위해 로그를 취함 (로그 가능도 최대화와 동일 효과)
    • L(θ)=i=1np(yixi,θ)L(\theta) = \prod_{i=1}^{n} p(y_i | x_i, \theta)
    • logL(θ)=i=1nlogp(yixi,θ)\log L(\theta) = \sum_{i=1}^{n} \log p(y_i | x_i, \theta)
  • 확률 밀도 함수 (pdf)

    • θ=(β1,β0)\theta = (\beta_1, \beta_0)가 주어졌을 때 yiy_i의 PDF는 다음과 같음
    • p(yixi,θ)=12πσ2exp{(yi(β0+β1xi))22σ2}p(y_i | x_i, \theta) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left\{-\frac{(y_i - (\beta_0 + \beta_1 x_i))^2}{2\sigma^2}\right\}
    • 가우시안 가정
  • 목표

    • 가능도를 최대화 하는 파라미터를 찾기 (β0\beta_0 β1\beta_1)
    • 가능도를 최대화 하는 μ\muσ2\sigma^2 찾기
    • PDF 계산
  • 계산 과정

    • β^0=L(θ)β0=0\hat{\beta}_0 = \frac{\partial L(\theta)}{\partial \beta_0} = 0
    • β^1=L(θ)β1=0\hat{\beta}_1 = \frac{\partial L(\theta)}{\partial \beta_1} = 0
    • σ^2=L(θ)σ2=0\hat{\sigma}^2 = \frac{\partial L(\theta)}{\partial \sigma^2} = 0

0개의 댓글