다중회귀모형에 대한 이해를 높이기 위해서는 선형모형(linear model)과 비선형모형(nonlinear model)의 정확한 구별이 필요합니다. 본 포스팅에서는 선형과 비선형 모형의 차이를 이해하고 어떻게 판별할 수 있는지 알아보고자 합니다.
선형모형은 모형식이 모수(파라미터)들의 선형함수로 주어지는 모형을 뜻합니다. 회귀모형에서 모수는 회귀계수 βj들을 의미하므로 회귀모형식이 βj들의 선형함수이면 선형회귀모형이 됩니다.
따라서 다중회귀모형식
은 회귀계수 βj들의 선형함수로 해석하는 것이 타당합니다.
만약, x를 설명변수 β를 회귀계수들의 벡터로 생각했을 때,
모형식은 설명변수 x와 회귀계수 β가 선형결합된 형태로 나타나며
만일 회귀식 f(x, β)의 βj에 대한 편미분 ∂f/∂βj가 어느 회귀 계수도 포함하지 않으면 회귀식 f(x, β)를 모수 βj에 대해 선형이라 합니다. 그리고 회귀식 f(x, β)가 모든 βj들에 대해 선형이면 이를 선형 모형이라 합니다.
쉽게 생각하면 모형식의 모든 회귀 계수 각각에 대해 편미분한 결과가 다른 회귀계수를 포함하지 않으면 선형모형이라고 생각할 수 있습니다.
예를들어,
단순선형회귀분석의 결과로 설명변수의 이차항이 필요하다는 결론을 내렸다고 할 때, 이 경우 회귀모형은
로 주어집니다. 위의 모형은 설명변수 X에 대해서는 이차함수이지만 회귀 계수에 편미분을 한 결과가 다른 회귀계수를 포함하지 않기 때문에 이 모형은 선형입니다.
또 다른 예로, 변수들의 값의 범위가 매우 큰 경우에는 스케일을 조정하기 위해 로그변환을 자주 사용하는데, 만일 두 설명변수 X1과 X2가 그러한 경우 회귀모형
을 생각할 수 있습니다. 위의 모형 역시 모든 회귀계수에 대해서 선형모형이므로 선형 모형이 됩니다. 실제로 선형모형은 모형에 포함되는 설명변수의 형태와는 무관합니다. 위의 모형에서 Z1 = logX1, Z2 = logX2와 같은 변수 변환을 생각하면 다음의 모형으로 바꿀 수 있기 때문입니다.
선형회귀분석에서는 변수들의 관계를 선형함수로 나타내어 설명을 하였으나, 과학의 여러 분야에서 나타나는 현상들에서는 변수들이 비선형관계로 설명되는 것이 더욱 자연스러운 경우가 많다. 회귀모형에 주어진 회귀식이 모수들의 비선형함수로 나타내어지는 경우 이러한 모형을 비선형회귀모형 (nonlinear regression model)이라 한다.)
예를들어, 다음 회귀모형
의 경우 회귀 계수에 대해 편미분을 하였을 때 ∂f/∂β0 = 1로 상수이므로 모형식이 β0에 대해서는 선형이지만,
은 각각 계수들을 포함하고 있으므로 β1, β2에 대해서는 전체적으로 비선형모형이 됩니다.
또 다른 예로
동식물들의 성장에 관한 연구에서 성장치(Y)와 시간(X)의 관계를 나타내는 비선형회귀식들 중 하나는 미캘리스-멘텐(Michaelis-Menten) 모형식으로 다음과 같습니다.
비선형회귀모형과 선형회귀모형의 차이점의 하나는 모수의 해석입니다.
선형회귀모형에서 회귀계수는 설명변수의 변화량에 따른 반응변수의 평균변화량으로 해석되지만, 비선형회귀모형에서는 각 모수가 특정한 의미를 가질 수 있다는 것인데 예를 들어 위의 미캘리스-멘텐 모형식에서는 β1은 성장치가 접근하는 최대값, β2는 동식물이 자랄 수 있는 최대 성장치의 반만큼 성장하기까지 걸리는 시간의 의미를 가집니다. 이처럼 비선형회귀분석에서는 각 모형에 포함된 모수들의 의미를 정확하게 파악하는 것이 모형의 해석과 분석에 필수적입니다.