Newton-Raphson Algorithm과 가중최소제곱합법

·2025년 3월 30일

뉴턴-랩슨 알고리즘과 반복적 가중 최소제곱법(Iteratively Reweighted Least Squares, IRLS)이 동일한 방법임을 수학적으로 보이는 주요 아이디어는, 로그우도 함수를 현재 추정치 근방에서 2차 테일러 전개로 근사한 후, 그 극대점을 찾는 과정이 가중 최소제곱 문제의 해와 동일하게 나타난다는 점입니다.

먼저, GLM에서 모수 θ\theta에 대한 로그우도 함수 (θ)\ell(\theta)를 현재 추정치 θ(t)\theta^{(t)} 근방에서 2차 테일러 전개하면

(θ)(θ(t))+(θθ(t))TU(θ(t))+12(θθ(t))TH(θ(t))(θθ(t)),\ell(\theta) \approx \ell(\theta^{(t)}) + (\theta - \theta^{(t)})^T U(\theta^{(t)}) + \frac{1}{2} (\theta - \theta^{(t)})^T H(\theta^{(t)})(\theta - \theta^{(t)}),

여기서

  • U(θ(t))=(θ)θθ(t)U(\theta^{(t)}) = \frac{\partial \ell(\theta)}{\partial \theta}\Big|_{\theta^{(t)}}는 점수 벡터,
  • H(θ(t))=2(θ)θθTθ(t)H(\theta^{(t)}) = \frac{\partial^2 \ell(\theta)}{\partial \theta \partial \theta^T}\Big|_{\theta^{(t)}}는 헤시안 행렬입니다.

최대값을 찾기 위해 이 2차 근사를 최대화하면, 최적해 θ(t+1)\theta^{(t+1)}

θ(t+1)=θ(t)[H(θ(t))]1U(θ(t))\theta^{(t+1)} = \theta^{(t)} - \left[H(\theta^{(t)})\right]^{-1} U(\theta^{(t)})

로 갱신됩니다.

이제 GLM의 특성상, 보통 헤시안 행렬은 음의 정보 행렬과 관련되어 있으며, 일반적으로

H(θ)XTWX,H(\theta) \approx -X^T W X,

로 쓸 수 있습니다. 여기서

  • XX는 디자인 행렬,
  • WW는 현재 추정치 θ(t)\theta^{(t)}에 따라 결정되는 가중치 행렬입니다.

또한, 점수 벡터는 보통

U(θ(t))XT(yμ(t))U(\theta^{(t)}) \approx X^T (y - \mu^{(t)})

와 같이 표현됩니다. 여기서 yy는 관측치 벡터, μ(t)\mu^{(t)}는 현재 모형 예측값(즉, μ(t)=g1(Xθ(t))\mu^{(t)} = g^{-1}(X \theta^{(t)}))입니다.

따라서 뉴턴-랩슨 갱신식은

θ(t+1)=θ(t)+(XTWX)1XT(yμ(t))\theta^{(t+1)} = \theta^{(t)} + \left(X^T W X\right)^{-1} X^T (y - \mu^{(t)})

로 쓸 수 있습니다.

이 식을 보면, XTWXX^T W XXT(yμ(t))X^T (y - \mu^{(t)})는 가중 최소제곱법(normal equations for weighted least squares)의 형태와 동일합니다. 더 구체적으로, 다음과 같이 "작업 반응 변수(working response)" zz를 정의할 수 있습니다.

z=Xθ(t)+(W)1(yμ(t)).z = X \theta^{(t)} + (W)^{-1}(y - \mu^{(t)}).

그러면 위의 갱신식은

θ(t+1)=argminθW(zXθ)2,\theta^{(t+1)} = \arg\min_\theta \| \sqrt{W} (z - X\theta) \|^2,

와 같이 표현할 수 있으며, 이는 가중치 행렬 WW를 사용하는 최소제곱 문제의 해입니다.

즉, 뉴턴-랩슨 방법은 현재 추정치 근방에서 로그우도 함수를 2차로 근사하여, 그 근사된 이차형식을 최대화하는 문제를 풀게 되는데, 이 과정이 본질적으로 "가중 최소제곱 문제"를 푸는 것과 동일합니다. 이 때문에 GLM의 최대우도 추정을 위해 뉴턴-랩슨 알고리즘을 사용하는 것을 "반복적으로 가중 최소제곱법(iteratively reweighted least squares)"이라고 부릅니다.

요약하면,
1. 로그우도 함수를 2차 테일러 전개로 근사하면 이차 함수(포물선 형태)를 얻게 됩니다.
2. 이 이차 함수의 극대값을 찾는 과정이 선형 방정식(정규방정식)으로 표현되며, 이는 가중 최소제곱 문제의 해와 동일합니다.
3. 따라서, 각 반복 주기마다 새로운 가중치 행렬 WW와 작업 반응 변수 zz를 통해 모수 추정치를 갱신하는 과정이 가중 최소제곱 피팅의 형태를 띠게 됩니다.

이러한 이유로 뉴턴-랩슨 알고리즘은 IRLS라고도 불리며, GLM의 ML 추정에서 중요한 역할을 합니다.

profile
보건대학원 뉴비

0개의 댓글