상황
우리가 단순 선형회귀모형을 쓰고 있어:
yi=β0+β1xi+ϵi
여기서 ϵi는 오차항이고, 우리는 β1 (기울기)가 0이 아닌지를 검정하려고 해.
왜 SSE의 자유도가 n−2가 되는가?
SSE (Sum of Squared Errors, 잔차제곱합) 은
SSE=i=1∑n(yi−y^i)2
인데, 여기서 y^i=β^0+β^1xi는 추정된 값이야.
- β^0 : 절편을 데이터로부터 추정함
- β^1 : 기울기도 데이터로부터 추정함
즉, 데이터 n개로부터 두 개의 모수(β0, β1)를 추정했어.
→ 따라서 "사용할 수 있는 자유도"가 2만큼 줄어.
원래 n개였던 자유도에서 2를 빼는 거야:
자유도=n−2
요약하면
SSE는 원래 n개의 데이터로 만들지만, β0와 β1 두 개를 "추정"했기 때문에, 잔차가 자유롭게 움직일 수 있는 차원이 n−2로 줄어드는 거야.
한 줄 요약
✅ "추정한 모수 개수만큼 자유도가 감소한다."
(단순 선형회귀에서는 모수 2개 → 자유도 n−2)
1. 먼저 용어부터 정확히 하자
- SST (Total Sum of Squares): 전체 변동량
- SSR (Regression Sum of Squares): 회귀로 설명되는 변동량
- SSE (Error Sum of Squares): 회귀로 설명되지 못한 변동량 (오차)
분산분석 식:
SST=SSR+SSE
2. SSR의 자유도는 왜 "모수 개수 - 1"인가?
단순 선형회귀에서는
- y^i=β^0+β^1xi
- 모수: β0, β1 → 총 2개
그런데 SSR은 뭘 측정하냐면:
yi가 전체 평균 yˉ 주변에서 얼마나 "회귀식" 덕분에 설명되는지를 본다.
그런데
- yˉ로 설명하는 "완전 무효모형(null model)" (즉, 아무 x 효과 없는 모델)이 baseline이야.
- 이 baseline에 비해 "추가된 설명력"은 β1 (기울기) 하나 때문이야.
✅ 그래서 SSR은 β1 (또는 β1 하나로 인한 설명력)에 대해 자유도 1개만 가짐.
3. 정리하면
- SST: 전체 데이터의 자유도는 n−1 (데이터 n개에서 전체 평균 yˉ를 하나 추정했으니까)
- SSR: 회귀모형이 추가로 설명하는 부분 → 자유도 1개 (기울기 β1 하나)
- SSE: 나머지 오차 → 자유도 n−2 (전체 n에서 β0, β1 두 개 추정했으니까)
공식적으로:
항목 | 자유도 |
---|
SST | n−1 |
SSR | 1 |
SSE | n−2 |
4. ✅ 한 줄 요약
SSR의 자유도는 "추가된 설명력(기울기 β1 하나)"에 해당하므로 자유도 1이다.
(모수 2개 추정했지만, β0 (절편)는 baseline 평균 맞추는 데 쓰이는 거고, 새로운 설명은 β1 덕분에 생긴다는 점을 기억해!)