사전적으로 회귀(Regression)란 말은 '다시 원래 자리로 돌아간다'는 뜻으로 이를 통계 분석에 처음 사용한 사람은 영국의 우생학자 Galton으로 알려져있다. 그는 완두콩 실험을 통해 부모콩의 무게를 x축으로 하고 자식콩의 무게를 y축으로 산점도(scatter plot)를 그려 두 세대 간의 관계를 살펴보았다. 그는 부모콩의 무게가 무거울수록 자식콩의 무게도 무거워지는 경향이 있기는 하지만 그 경향이 기울기가 1보다 작아서 자식의 무게는 부모콩의 평균 무게로 돌아가려는 경향이 있다는 사실을 발견하고 이를 회귀라 표현하였다. 즉, 부모의 무게와는 무관하게 자식들의 무게는 대체적으로 평균을 중심으로 분포한다는 것이다. Galton의 연구실 동료 Karl Pearson은 이를 계량적으로 처음 분석하여 발표하였다.
20세기 초에는 회귀분석이란 용어가 세대 간의 회귀관계를 나타내는 분석으로 사용되었으나 차츰 세월이 흐르면서 변수들 간의 함수관계를 데이터로부터 분석하는 통계적 방법을 회귀분석이라고 이해하게 되었으며, 오늘날에도 이 용어들이 그대로 사용되고 있다.
설명변수와 반응변수
회귀분석은 매우 광범위하게 활용된다. 간단한 예로 다음과 같은 문제를 들 수 있다.
국민소득과 자동차 보유대수 간의 관계
자동차사고 발생건수와 병원의 입원 환자수의 관계
위 예시에서 국민소득과 자동차사고 발생건수와 같이 다른 변수에 영향을 주는 변수를 독립변수(independent variable) 또는 설명변수(explanatory variable)이라 부른다. 반면, 자동차사고 발생건수와 병원의 입원 환자수와 같이 독립변수에 의해 결정되는 변수들을 종속변수(dependent variable) 또는 반응변수(response variable)이라고 부른다. 즉,
N개의 샘플이 주어졌다고 하자. 우리의 목표는 N개의 샘플을 이용하여 이를 대표하는 직선의 기울기 β1과 절편 β0를 추정하는 것이다. 이때 회귀직선은 y의 추정할 때 발생하는 오차들을 가장 작게 하는 것이 좋을 것이다. 그러나 모든 샘플에 대한 오차를 최소화할 수는 없기 때문에 오차의 크기를 전체적으로 작게하는 방법을 선택하여야 한다. 이를 위해, 식 (1)을 참고하여 오차제곱합(Sum of Squared Error: SSE)를 다음과 같이 나타낼 수 있다.
식 (6)의 첫 번째 줄은 식 (5)의 두 번째 줄로부터 유도된 결과이고, 식 (6)의 두 번째 줄은
식 (5)의 첫 번째 줄로부터 유도된 결과이다. 그리고 식 (6)의 두 번째 줄에서 ∑i=1N(xˉyˉ−yixˉ)와 ∑i=0N(xˉ2−xixˉ)는 모두 0으로 수식의 유도를 위해 추가된 dummy 항들이다. 결과적으로 회귀 직선의 기울기 β1은 x와 y의 공분산과 x의 분산으로부터 추정된다.
식의 표현을 보다 간결하게 하기 위하여 분산과 공분산에 자유도를 곱한 값을 아래와 같이 나타내자.
식 (3)과 식 (8)과 같이 SSE를 최소화하는 회귀계수를 추정하는 방법을 최소제곱추정(least square estimation, LSE)이라고 부르며, LSE를 통해 얻어진 추정치를 최소제곱 추정량(LS estimate)라고 부른다. 본 절의 결론은 단순회귀모델의 회귀계수는 LSE를 통해 구한다는 것이다.
상관계수는 r=Sxy/(SxxSyy)이다(variance와 covariance 계산시 사용되는 자유도는 나누면 없어진다). 따라서 상관계수 r을 알면 기울기 추정치 β^1을 아래와 같이 다시 쓸 수 있다.
β^1=rSxxSyy.(9)
Residual의 성질
Residual은 xi에서 측정된 yi와 추정된 y^i의 차로 정의된다. 즉,
ei=yi−y^i(10)
와 같이 나타낼 수 있으며, 회귀계수가 LSE를 통해 추정되었다면 다음과 같은 흥미로운 성질이 성립한다.
Residual의 합은 0이다. 즉,
i∑ei=0(11)
Residual의 제곱 합, ∑iei2,은 항상 최소가 된다. 이는 LSE가 최소화하는 목적함수가 SSE이므로 자명하다.
∑iei=∑iyi−∑iy^i=0이므로 관찰값 yi와 추정값 y^i의 합은 같다. 즉,
i∑yi=i∑y^i(12)
ei와 y^i의 가중합은 항상 0이다. 즉,
i∑eiy^i=0(13)
위와 같은 성질을 orthogonal priciple이라 한다. Orthgonal principle의 의미는 [그림 2]와 같다. 우리는 벡터 yi를 추정하고 싶지만 y^i는 xi의 선형결합으로 이루어지므로 xi가 span하는 공간에만 존재할 수 있다. 그러나 yi는 항상 residual에 의해 xi가 span하는 공간 외부에 존재하게 되고, 우리가 할 수 있는 최선의 선택은 y^i가 최대한 yi와 비슷해지도록 하는 것이다. 그리고 최대한 비슷해지도록 한다는 것은 [그림 2]와 같이 y^i가 존재할 수 있는 공간상에서 yi에 최대한 가까운 y^i을 결정하는 것이므로 결국 y^i와 ei는 항상 직교하게 된다.
[그림 2] Orthogonal Principle
Orthogonal principle에 의해 ei와 xi의 가중합도 항상 0이다. 즉,