하나의 반응변수와 여러 개의 설명변수들 사이의 관계를 규명하고자 할 때 사용되는 통계적 방법들 중의 하나가 다중 선형회귀분석입니다.
회귀분석을 실제로 응용하는데 있어서는 설명변수가 하나인 단순회귀모형보다는 설명변수가 두 개 이상 포함된 회귀모형이 더욱 빈번하게 사용됩니다.
반응변수가 단 하나의 설명변수만으로 충분하게 설명되는 경우는 드물고, 대부분의 경우 반응변수는 여러개의 설명변수들과 관계를 맺고 있기 때문입니다.
회귀모형에 (p - 1)개의 설명변수 X1, X2, ... , Xp-1 가 주어졌을 때 반응변수 Y의 (조건부) 평균함수가 다음과 같이 주어진다고 가정하면
즉, 반응변수 Y의 (조건부) 기댓값은 각 설명변수들의 선형결합으로 나타내어지고. 위의 식에 개개의 관측점에서 발생하는 오차를 나타내는 확률변수 ε을 더하면 다음의 중선형회귀모형(Multiple linear regression model)을 얻을 수 있습니다.
데이터의 개수가 n이라 할때 i의 값은 1부터 n까지의 값을 가집니다.
εi (잔차)는 평균이 0, 분산이 σ2인 확률변수이고 서로 독립으로 가정합니다..
위의 식에서 Xi,j는 j번째 설명변수 Xj의 i 번째 관측값 입니다.
β0은 Y축의 절편, βj는 Y와 Xj간의 기울기로 다른 설명변수들의 값들이 고정되었을 때 Xj의 Y에 대한 영향의 정도를 나타냅니다.
이는 다른 설명변수들의 값이 고정되었을 때, Xj가 한 단위 증가하면 Y의 평균값은 βj만큼 변하게 된다는 의미입니다.