Restricted Regression (제한회귀)

stat._.jun·2026년 2월 10일

Restricted Regression

다음의 가설검정 문제를 생각해보자.

H_0 : C\beta = 0 \quad \textup{versus} \quad H_1 : C\beta \neq 0

선형모형에서, 이런 가설검정 문제에서 LR Test를 수행하려면 좀 난감하다. 귀무가설 하에서 MLE를 어떻게 찾아야할까? 귀무 가설 하에서 LRT는 다음과 같은 문제로 귀결된다.

\textup{minimize } \| Y- X\beta\| \textup{ subject to } C\beta = 0

라그랑주 승수를 세워보자.

\begin{aligned} \mathcal{L}(\beta, \lambda) &= \frac{1}{2}\| Y - X \beta \|^2 + \lambda^{\top}C\beta \end{aligned}

그럼 이제 미분해보자. 우선 베타에 대해 미분해주고,

\begin{aligned} &\nabla_{\beta} \mathcal{L} = -X^{\top}(Y - X\beta) + C^{\top} \lambda = 0 \\ &\Rightarrow X^{\top}X \beta = X^{\top}Y - C^{\top}\lambda \\ &\Rightarrow \hat\beta_c = (X^{\top}X)^{-1}X^{\top}Y - (X^{\top}X)^{-1}C^{\top}\lambda \end{aligned}

그리고 다시 람다로 미분을 해보도록하자.

\begin{aligned} &\nabla_{\lambda}\mathcal{L} = C\beta \\ &\Rightarrow C\hat \beta_c = 0 \end{aligned}

그럼 두개의 정보를 뭉치자. 위에 베타쪽 식 양변에 C 곱해주면

\begin{aligned} &C \hat \beta_c = C(X^{\top}X)^{-1}X^{\top}Y - C(X^{\top}X)^{-1}C^{\top}\lambda \\ &\Rightarrow 0 = C(X^{\top}X)^{-1}X^{\top}Y - C(X^{\top}X)^{-1}C^{\top}\lambda \\ &\Rightarrow \lambda = [C(X^{\top}X)^{-1}C^{\top}]^{-1} C(X^{\top}X)^{-1}X^{\top}Y \\ \end{aligned}

자, 그럼 처음 식에 다시 대입을 해주면, 끝임!

\hat \beta_c = (X^{\top}X)^{-1}X^{\top}Y - (X^{\top}X)^{-1}C^{\top}[C(X^{\top}X)^{-1}C^{\top}]^{-1} C(X^{\top}X)^{-1}X^{\top}Y

앞부분 첫 Term은 OLS에서 회귀계수인게 보인다.

자연스러운 확장으로 $H_0 : C\beta = t$ 에 대해서도 어렵지 않게 보일 수 있다.

C \hat \beta \sim N(C\beta, \sigma^2 C(X^{\top}X)^{-1}C^{\top})

위 사실로 부터 여러 사실을 알수 있는데, 일단 SSH를 정의하자. (SSR 감성)

SSH = (C\hat\beta)^{\top}[C(X^{\top}X)^{-1}C^{\top}]^{-1}(C\hat \beta)/\sigma^2

근데 이건 이차형식이기 때문에 카이제곱 따르는 거는 어렵지 않게 알수 있지만, F검정을 수행하려면 SSE랑 독립성을 밝혀야한다.
그래서 SSH를 좀 다른 Form으로 쓰면 (Y에 대한 이차형식으로 써주자!)

SSH = Y^{\top}X(X^{\top}X)^{-1}[C(X^{\top}X)^{-1}C^{\top}]^{-1}(X^{\top}X)^{-1}X^{\top}Y/\sigma^2.

SSE의 $I - H$ 랑 곱했을때 $O$ 행렬 나오면 두 이차형식이 독립이니까 SSH /SSE 해서 검정 가능함.

\begin{aligned} &(I - H)X(X^{\top}X)^{-1}[C(X^{\top}X)^{-1}C^{\top}]^{-1}(X^{\top}X)^{-1}X^{\top} \\ &=SSH - H \cdot SSE \\ &=SSH - X(X^{\top}X)^{-1}X^{\top}X(X^{\top}X)^{-1}[C(X^{\top}X)^{-1}C^{\top}]^{-1}(X^{\top}X)^{-1}X^{\top} \\ &=SSH -(X^{\top}X)^{-1}[C(X^{\top}X)^{-1}C^{\top}]^{-1}(X^{\top}X)^{-1}X^{\top} \\ &=SSH - SSH = O \end{aligned}

식이 혐짤이다;
그래서 여하튼 위 사실에 의해서 F 통계량도 알수 있다. 앞에서 언급하지 않았지만 $C \in \mathbb{R}^{(p+1) \times q}$ 라고 정의하면,

F = \frac{SSH /q}{SSE / (n-p-1)} \sim F_{q, n-p-1}.

$Y \sim N(\mu, \Sigma)$ 라고 할때, $Y^{\top} A Y$ 의 MGF는 아래와 같다.

M_A(t) = |I-2tA \Sigma|^{-1/2} \exp \left\{ \frac{1}{2} \mu^{\top}(I-(I-2tA \Sigma)^{-1})\Sigma^{-1}\mu \right\}

근데 이거 알아두면 은근 유용한게, Rencher에서 뒤에거 증명하기 편함. $\Xi = |I-2tA\Sigma|$ 라고 두고, $\log M_{A}(t)$ 미분하면 중심적률 나오니까, 그거 이용해서 Variance 유도할 수 있다. 고도의 암기?는 도움이 된다!!