회귀분석의 전제 조건
선형성 (Linearity) : 종속 변수 Y와 독립변수 X 사이에 관계가 선형적이어야 한다
독립성 (Independence) : 각 관측값은 서로 독립적이어야 한다. 특히, 잔차들 사이에는 자기 상관이 없어야 한다
등분산성 (Homoscedasticity) : 잔차들의 분산이 독립 변수 값에 따라 일정해야 한다. 즉, 모든 수준의 독립 변수에 대해 잔차의 분산이 동일해야 한다.
정규성 (Normality) : 잔차가 정규분포를 따라야 한다 (잔차에는 정보가 없어야 한다)
최소제곱법
최소제곱법(Ordinary Least Squares, OLS) : 회귀 직선이 실제값과 근접하도록 적합선을 만들어내는 선형 회귀 모델의 추정방법

단순 회귀모델은 다음과 같다
잔차
절편(), 기울기()
위 회귀모델에서 는 실제값(true function)이며 이는 확정된 값(결정적 모수)이다. 따라서 에 대해 불확실성을 제공하는 요소는 잔차가 유일하며, 모든 에 대해 가 성립한다
표본분산의 경우 이지만, 변동성이라는 관점에 집중해 을 으로 대체한다
추정치 이 (모수)의 불편추정량임을 증명해보자(은 모두 의 축약)
단순 회귀 모형에서는 이 위와 같지만, 다중 회귀 모형에서는 다중공선성 문제를 고려해야 한다.
다중공선성 (Multicollinerity) : 회귀분석에서 독립변수들 간에 강한 상관관계가 나타나 중요도가 제대로 파악되지 않는 문제. 회귀분석의 전제 조건 중 독립성(Indepndence)에 위배되며, 아래와 같은 문제가 발생한다.
계수 추정의 민감성 : 독립 변수 의 작은 변화가 회귀 계수 의 큰 변화를 유발할 수 있다. 즉, sampling에 따라 회귀 계수의 추정치가 크게 변할 수 있다. 이는 추정치의 분산이 커지는 것을 의미한다.
과대/과소 추정 : 회귀 모델은 다중공선성이 있는 독립 변수들(예: )의 기여도()를 명확하게 구분하기 어렵기 때문에, 모델이 샘플에 따라 계수를 과대 또는 과소 추정할 수 있다. 이는 추정치의 분산을 증가시키고, 회귀 계수를 정확하게 추정하기 어렵게 만든다.
다중 회귀 모형에서는 다중공선성이 있는 상황에서 회귀 계수의 분산이 과소평가되는 것을 방지하기 위해 VIF(Variance Inflation Factor)를 추가하여 를 정의한다
결정계수 () : 종속변수 Y가 독립 변수들()에 의해 얼마나 잘 설명되는지 나타나내는 값. 0~1 사이의 값을 가지며, 결정계수가 클수록 모델이 데이터를 잘 적합시키고 있으며, 독립 변수들이 종속 변수에 대한 예측력을 갖고 있음을 시사한다
ex) 인 경우 독립 변수들이 종속 변수의 변동 중 80%를 설명하고 있음을 의미한다.

: 독립변수 X_i가 다른 독립 변수들에 의해 얼마나 잘 설명되는지를 나타내는 값
의 계산방법

추정치 의 분산을 계산해보자
절편의 분산의 경우도 회귀 계수의 분산과 같이 작을수록 예측 모델이 일관된 결과를 제공할 가능성이 높다.
절편의 분산을 줄이기 위해서 어떻게 해야 하는지 요소별로 살펴보자 (회귀계수와 중복 설명 생략)
(잔차의 분산) 줄이기
(독립 변수의 제곱합) 줄이기
(표본 크기) 늘리기
(독립변수의 편차 제곱합)
회귀 계수의 평가
개별 회귀 계수(각 독립 변수 X가 종속 변수 Y에 미치는 영향력)는 아래와 같이 정의했다
회귀 계수 값이 통계적으로 유의미한지 검정해 볼 수 있다
k개의 회귀 계수 각각에 대해 t-검정을 진행할 수 있다
검정통계량 (t-value)은 아래와 같다
p-value는 가 자유도 (n-k-1)의 t-분포를 따른다고 가정하고 계산된다
p-value가 유의수준 보다 작으면 를 기각한다