회귀모델에서 SSR, SSE 자유도

·2025년 4월 28일
0

상황

우리가 단순 선형회귀모형을 쓰고 있어:

yi=β0+β1xi+ϵiy_i = \beta_0 + \beta_1 x_i + \epsilon_i

여기서 ϵi\epsilon_i는 오차항이고, 우리는 β1\beta_1 (기울기)가 0이 아닌지를 검정하려고 해.


왜 SSE의 자유도가 n2n-2가 되는가?

SSE (Sum of Squared Errors, 잔차제곱합)

SSE=i=1n(yiy^i)2SSE = \sum_{i=1}^n (y_i - \hat{y}_i)^2

인데, 여기서 y^i=β^0+β^1xi\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i는 추정된 값이야.

  • β^0\hat{\beta}_0 : 절편을 데이터로부터 추정함
  • β^1\hat{\beta}_1 : 기울기도 데이터로부터 추정함

즉, 데이터 nn개로부터 두 개의 모수(β0\beta_0, β1\beta_1)를 추정했어.

→ 따라서 "사용할 수 있는 자유도"가 22만큼 줄어.

원래 nn개였던 자유도에서 22를 빼는 거야:

자유도=n2\text{자유도} = n - 2

요약하면

SSE는 원래 nn개의 데이터로 만들지만, β0\beta_0β1\beta_1 두 개를 "추정"했기 때문에, 잔차가 자유롭게 움직일 수 있는 차원이 n2n-2로 줄어드는 거야.


한 줄 요약

"추정한 모수 개수만큼 자유도가 감소한다."
(단순 선형회귀에서는 모수 2개 → 자유도 n2n-2)

1. 먼저 용어부터 정확히 하자

  • SST (Total Sum of Squares): 전체 변동량
  • SSR (Regression Sum of Squares): 회귀로 설명되는 변동량
  • SSE (Error Sum of Squares): 회귀로 설명되지 못한 변동량 (오차)

분산분석 식:

SST=SSR+SSESST = SSR + SSE

2. SSR의 자유도는 왜 "모수 개수 - 1"인가?

단순 선형회귀에서는

  • y^i=β^0+β^1xi\hat{y}_i = \hat{\beta}_0 + \hat{\beta}_1 x_i
  • 모수: β0\beta_0, β1\beta_1 → 총 2개

그런데 SSR은 뭘 측정하냐면:

yiy_i가 전체 평균 yˉ\bar{y} 주변에서 얼마나 "회귀식" 덕분에 설명되는지를 본다.

그런데

  • yˉ\bar{y}로 설명하는 "완전 무효모형(null model)" (즉, 아무 x 효과 없는 모델)이 baseline이야.
  • 이 baseline에 비해 "추가된 설명력"β1\beta_1 (기울기) 하나 때문이야.

✅ 그래서 SSR은 β1\beta_1 (또는 β1\beta_1 하나로 인한 설명력)에 대해 자유도 1개만 가짐.


3. 정리하면

  • SST: 전체 데이터의 자유도는 n1n-1 (데이터 nn개에서 전체 평균 yˉ\bar{y}를 하나 추정했으니까)
  • SSR: 회귀모형이 추가로 설명하는 부분 → 자유도 1개 (기울기 β1\beta_1 하나)
  • SSE: 나머지 오차 → 자유도 n2n-2 (전체 nn에서 β0\beta_0, β1\beta_1 두 개 추정했으니까)

공식적으로:

항목자유도
SSTn1n-1
SSR1
SSEn2n-2

4. ✅ 한 줄 요약

SSR의 자유도는 "추가된 설명력(기울기 β1\beta_1 하나)"에 해당하므로 자유도 1이다.

(모수 2개 추정했지만, β0\beta_0 (절편)는 baseline 평균 맞추는 데 쓰이는 거고, 새로운 설명은 β1\beta_1 덕분에 생긴다는 점을 기억해!)

profile
보건대학원 뉴비

0개의 댓글