표본 데이터에서 계산된 통계량에 적용되며, 변화가 가능한 값의 개수이다.
이전에 간단히 포스팅한 적이 있슴.
[통계] 표본평균과 모평균 (+표준오차, 자유도 )
사실 데이터 과학자가 다루는 데이터의 경우 n이 굉장히 크기 때문에, n이나 n-1이나 별 차이 없다고 한다.
다만 한 가지 상관있는 부분이 있다.
공선성(collinearity): 하나의 독립변수가 다른 하나의 독립변수로 잘 예측되는 경우, 또는 서로 상관이 높은 경우
다중공선성(multicollinearity): 하나의 독립변수가 다른 여러 개의 독립변수들로 잘 예측되는 경우
요일을 예로 들 경우, 월~토가 아닌 요일이라고 하면 자동으로 일요일이 된다. 따라서 일요일에 대해 다중공선성이 발생하는데, 지표 중에 일요일 지표가 있으면 회귀에 악영향을 끼치게 된다.