1) 선형성(Linearity) : 독립 변수 X와 종속 변수 Y의 관계는 선형적이어야 한다.
2) 정규성(Normality) : 잔차(예측값과 실제 값의 차이)가 정규 분포여야 한다.
3) 등분산성(Homoscedasticity, Constant Variance) : 독립 변수 X의 모든 값에 대하여 잔차의 분산이 같아야 한다.
4) 독립성(Independence) : 모든 잔차는 독립적이어야 한다.
5) 외생성(Exogeneity, Fixed Features, "Given Constants") : 독립 변수 X는 주어진(고정된) 값이다.
그외 - 다중공선성 부재(Absence of multicollinearity) : 독립 변수들끼리 관련이 없어야 함
잔차란, 실제 값과 추정한 값의 차이를 말한다.
최소자승법(OLS:Ordinary Least Squares)는 잔차제곱합(RSS: Residual Sum of Squares)를 최소화하는 가중치 벡터를 구하는 방법이다.
여기서 RSS는,
위와 같이 표현되며 추정 모델과 데이터 간의 불일치를 측정한 것이다.
따라서 OLS는 이 RSS를 미분하여 그레디언트(gradient) 백터를 구하고, 이 그레디언트 벡터를 0으로 만드는 가중치 벡터를 구하는 것이다.
참고로 잔차 제곱의 합을 구하는 이유는 미분이 가능한 형태로 유일한 해인 최솟값을 구할 수 있기 때문이다.
: 예측 모델을 구체적으로 만들기 전, 가장 간단하면서도 직관적이고 최소한의 성능을 나타내는 기준이 되는 모델.
범주형 데이터도 선형관계에 있을 수 있다.
SSE를 정규화(자유도 n-2로 나눔)한 것이 MSE이다.
MSE는 actual data와의 차이, R^2는 mean과의 차이이다.
'선형성'은 독립변수(x)의 차수가 아닌 파라미터가 선형식인지 유무로 결정
참고 : 선형 회귀 모델에서 '선형'이 의미하는 것은 무엇인가?