최대 가능도 추정법

HanJu Han·2024년 11월 15일

로지스틱 회귀와 최대 가능도 추정법의 관계를 단계별로 설명

  1. 로지스틱 회귀 모델:
    P(구매|x) = 1/(1 + e^(-θ₀ - θ₁×나이 - θ₂×월소득))
  • 이 식은 특정 나이와 월소득을 가진 사람의 구매확률을 예측
  1. likelihood 함수 만들기:
  • 각 데이터에 대한 확률을 곱함
L(θ₀,θ₁,θ₂) = P(구매|x₁)^y₁ × (1-P(구매|x₁))^(1-y₁) × 
                P(구매|x₂)^y₂ × (1-P(구매|x₂))^(1-y₂) × ...

예시 데이터로 보면:

데이터1: 25세, 250만원, 구매(y=1)
데이터2: 35세, 180만원, 미구매(y=0)

데이터1의 likelihood:

  • P(구매|x₁) = 1/(1 + e^(-θ₀ - θ₁×25 - θ₂×250))
  • y₁=1이므로 그대로 사용

데이터2의 likelihood:

  • P(미구매|x₂) = 1 - 1/(1 + e^(-θ₀ - θ₁×35 - θ₂×180))
  • y₂=0이므로 (1-P) 사용
  1. 최대 가능도 추정:
  • θ₀, θ₁, θ₂ 값을 조정하면서
  • likelihood가 최대가 되는 값을 찾음
  • 이것이 바로 최적의 모델 파라미터!

즉, 최대 가능도 추정법은 "관찰된 데이터가 나올 확률이 가장 높아지는 θ₀, θ₁, θ₂ 값을 찾는 방법"입니다.

쉽게 말하면:
1. 우리가 가진 데이터를 가장 잘 설명하는
2. 로지스틱 회귀 모델의 파라미터(θ₀, θ₁, θ₂)를 찾는 것!


x₁에 대해 명확한 설명.

x₁은 "첫 번째 사람의 데이터"를 의미합니다.
예를 들어, x₁ = (나이: 25살, 월소득: 250만원)

따라서:

P(구매|x₁) = 1/(1 + e^(-θ₀ - θ₁×25 - θ₂×250))

이렇게 쓴 이유는:

  • x₁ 대신 실제 값(나이=25, 월소득=250)을 넣은 것

다른 사람(x₂)이라면:

x₂ = (나이: 35살, 월소득: 180만원)
P(구매|x₂) = 1/(1 + e^(-θ₀ - θ₁×35 - θ₂×180))

즉:

  • P(구매|x₁)는 "x₁이라는 특성을 가진 사람의 구매확률"
  • 확률 식에 x₁의 실제 값을 넣어서 계산
  • x₁ → (25살, 250만원) 이렇게 대입된 것입니다

📊 예시 데이터:

x₁: (25살, 250만원) → y₁=1(구매함)
x₂: (35살, 180만원) → y₂=0(구매안함)
x₃: (28살, 300만원) → y₃=1(구매함)
  1. 각 데이터의 확률:
  • x₁의 확률: P(구매|x₁) = 1/(1 + e^(-θ₀ - θ₁×25 - θ₂×250))
  • x₂의 확률: 1 - P(구매|x₂) = 1 - 1/(1 + e^(-θ₀ - θ₁×35 - θ₂×180))
  • x₃의 확률: P(구매|x₃) = 1/(1 + e^(-θ₀ - θ₁×28 - θ₂×300))
  1. Likelihood는 이 확률들의 곱:
L(θ₀,θ₁,θ₂) = P(구매|x₁) × (1-P(구매|x₂)) × P(구매|x₃)
  1. 최대화하는 방법:
    1) 로그 likelihood 사용 (곱→합):
ln L = ln(P(구매|x₁)) + ln(1-P(구매|x₂)) + ln(P(구매|x₃))

2) 경사상승법으로 θ₀,θ₁,θ₂ 업데이트:

θ₀ = θ₀ + α×(∂/∂θ₀)(ln L)
θ₁ = θ₁ + α×(∂/∂θ₁)(ln L)
θ₂ = θ₂ + α×(∂/∂θ₂)(ln L)
  • α: 학습률

즉, likelihood는:

  • "우리가 가진 모든 데이터가 발생할 확률의 곱"
  • 이 값이 커지도록 θ₀,θ₁,θ₂를 조정
  • 그러면 데이터를 가장 잘 설명하는 모델을 찾을 수 있음!
profile
시리즈를 기반으로 작성하였습니다.

0개의 댓글