선형회귀모델을 다은과 같은 특정 자료에 적합할 때 많은 문제가 발생한다.

  1. 반응변수-설명변수 상관관계의 비선형성
  2. 오차항들의 상관성
  3. 오차항의 상수가 아닌 분산
  4. 이상치
  5. 레버리지가 높은(영향력이 큰) 관측치
  6. 공선성


1. 데이터의 비선형성

선형회귀모델의 기본 가정은 반응변수와 설명변수 사이에 직선(선형의) 상관관계가 있다는 것이다. 이는 즉, 실제 데이터가 반응변수와 설명변수 사이에서 직선(선형의) 상관관계를 보이지 않는다면, 선형회귀모델을 통해 얻은 모든 결론에 대해 신뢰할 수 없다는 점이다.

우리는 실제 데이터가 비선형성을 나타내는지 보기 위해 아래와 같은 테크닉을 취할 수 있다.

잔차 그래프

잔차 그래프는 비선형성을 식별하는 데 유용하다. 선형회귀모델에 문제가 있다면, 잔차 그래프에는 패턴이 존재할 것이다. 만약 선형회귀모델이 데이터를 잘 표현한다면, 잔차 그래프는 특정한 패턴이 보이지 않을 것이다.
만약 잔차그래프가 특정한 패턴을 통해 비선형 상관성이 있다는 것을 나타낸다면, 우리는 logX,X,X2log X, \sqrt{X}, X^{2}와 같이 설명변수를 비선형적으로 변환하여 회귀모델에 적용하는 것이 간단한 접근법이다.

위의 그래프에서 Case 1은 잔차에 패턴이 거의 보이지 않고, 이차항에 대한 데이터 적합이 잘 되었다는 의미이다. 반면 Case 2는 모델이 비선형성에 대한 적합을 하지 못해서, 잔차 그래프에서 원본 데이터의 비선형성이 패턴으로 나타나는 모습을 볼 수 있다.

2. 오차항의 상관성

선형회귀모델의 가장 중요한 가정은 오차항들 ϵ1,ϵ2,...,ϵn\epsilon_{1}, \epsilon_{2}, ..., \epsilon_{n}이 서로 상관되어 있지 않다는 것이다. 만일 오차항들 사이에 상관성이 있으면 추정된 표준오차는 실제 표준오차를 과소 추정하는 경향이 있을 것이다.
상관성은 이산 시점에 측정된 관측치들로 구성된 시계열 데이터에서 자주 발생된다. 많은 경우, 이웃하는 시점에 얻어진 관측치들은 양의 상관성을 가지는 오차를 가질 것이다.

모델의 잔차를 시간의 함수로 그리고, 오차항들이 상관되어 있지 않다면 인지할만한 패턴이 보이지 않을 것이다. 반대로 오차항들이 양의 상관성을 가진다면, 잔차에서 패턴을 볼 수 있을 것이다.

3. 오차항의 상수가 아닌 분산

선형회귀모델에서 중요한 또 다른 가정은 오차항들의 분산 Var(ϵi)=σ2Var(\epsilon_{i})=\sigma^{2}이 상수라는 것이다. 오차의 비상수 분산 혹은 이분산성(heteroscedasticity)은 잔차 그래프에 깔때기 형태(funnel shape)가 있는지를 보고 식별할 수 있다. 잔차 그래프에 깔때기 형태를 보이면, 오차에 이분산성이 있다는 것이며 선형회귀모델의 데이터에 특별한 transformation을 행하거나 다른 모델을 취해야 한다.

위 그래프에서 붉은색 선은 추세를 식별하기 위한 잔차에 대한 평활적합이며, 파란색 선은 외측 분위수(outer quantiles)를 따라가며 오차의 이분산성을 파악하기 위함이다. 왼쪽은 깔때기 형태를 보여주며 이는 오차의 이분산성이 있음을 보여주고, 오른쪽은 Y에 로그변환을 통해 이분산성이 사라졌음을 보여준다.

4. 이상치 (Outliers)

이상치는 주어진 설명변수의 값 xix_{i}에 대해 반응변수의 값 yiy_{i}가 보통 수준과는 다른 관측치이다. 이상치가 관찰되는 원인은 다양한데, 실제 데이터가 이상치를 포함하고 있을 수도 있고 데이터를 수집할 때 관측치를 잘못 기록하는 등의 수집 과정에서의 문제가 있을 수도 있다. 우리는 수집된 데이터를 통해 정말 '이상해 보이는 데이터'가 이상치인지를 알기는 어렵지만, 잔차 그래프를 통해 이상치를 식별할 수 있다.

대부분의 경우 이상치는 최소 제곱 적합에 거의 영향을 미치지 못한다. 위 그래프에서 붉은 색 동그라미로 관찰된 20이라는 데이터는 전형적인 이상치이다. 맨 왼쪽 그래프에서 이상치를 제외한다고 해도 파란색으로 나타나는 회귀 곡선의 기울기가 아주 조금 줄어들고, y 절편도 아주 조금 높아질 것이다. 하지만 이상치는 명확히 결정 계수(R-squared)를 줄어들게 한다. RSE는 모든 신뢰구간과 p-value를 계산하는 데 사용되므로 하나의 이상치에 의한 급격한 수치 증가는 적합 해석에 영향을 줄 수 있기 때문이다. 잔차 그래프가 이상치를 식별하는 데에 사용될 수 있다. 위의 중앙에 위치한 그래프로부터 우리는 이상치는 잔차 그래프에서도 이상치로 보여짐을 알 수 있다. 이는 직관적인 판단이며, 실제로 어떤 점이 이상치라고 판단하기 위해서는 잔차 그래프 대신 Studentized Residuals를 확인해야 한다. 스튜던트화된 잔차 그래프가 이상치를 명확히 식별하게 한다. 스튜던트화 잔차의 절대값이 3보다 큰 관측치가 이상치일 수 있다. 위의 그래프 중 제일 우측의 그래프에서 이상치의 스튜던트화 잔차는 6보다 크고, 다른 관측치의 경우 스튜던트화 잔차가 -2에서 2사이임을 볼 수 있다.

우리는 여기에서 이상치로 판정된 관측치를 제외할 것인지에 대한 문제에 직면한다.
이상치가 데이터 수집 혹은 기록 오류에 의해 발생되었다고 생각하면 단순히 그 관측치를 제외하면 된다. 하지만 이상치는 필요 설명 변수가 없는 것과 같이 모델의 결함을 나타내는 것이라면 무작정 제외하고 가는 것은 위험할 수 있다.

5. 레버리지가 높은 관측치

높은 레버리지를 가지는 관측치는 대응하는 xix_{i} 값이 보통 수준과 다르다. 레버리지가 높은 관측치를 제외하는 것이 이상치를 제외하는 것보다 최소 제곱선에 더 큰 영향을 미친다. 단순선형회귀에서는 레버리지가 높은 관측치를 찾아 제거하는 것이 아주 쉽다. 하지만 다중선형회귀에서는 각 개별 설명변수 값의 범위에 있으나 전체 설명 변수를 고려했을 때 보통 수준과 다른 관측치를 찾을 수 있을 것이다.

예를 들면, 위 그래프의 중앙 패널과 같이 X1,X2X_{1}, X_{2} 설명변수끼리의 관계를 확인했을 때, 붉은색 동그라미로 표기된 관측치는 다중회귀모형에서 레버리지가 높은 관측치가 될 수 있다. 이를 그래프로 확인하는 방법은 2차원 이상의 설명변수끼리의 관계에서는 매우 어렵다. 따라서 우리는 관측치의 레버리지를 수량화하기 위해 레버리지 통계량을 계산한다. 아래는 단순선형회귀에서의 레버리지 통계량이다.
hi=1n+(xixˉ)2i=1n(xixˉ)2h_{i}=\frac{1}{n}+\frac{(x_{i}-\bar{x})^{2}}{\sum^{n}_{i'=1}(x_{i'}-\bar{x})^{2}}
레버리지 통계량 hih_{i}은 항상 1/n1/n11사이 값이고, 모든 관측치에 대한 평균 레버리지는 항상 (p+1)/n(p+1)/n이다. 주어진 관측치가 (p+1)/n(p+1)/n보다 훨씬 큰 레버리지 통계량을 가지면 대응하는 점은 높은 레버리지를 가진다고 의심해 볼 수 있다.

6. 공선성

공선성(Collinearity)은 두 개 또는 그 이상의 설명변수들이 서로 밀접하게 상관되어 있는 경우를 말한다. 아래의 그래프에서 왼쪽 Limit, Age 설명변수의 산점도를 통해 우리는 두 설명변수가 공선성을 거의 갖지 않음을 알 수 있고, 오른쪽 Limit, Rating 설명변수의 산점도를 통해 우리는 두 변수가 서로 매우 강하게 상관되어 있음을 알 수 있다.

설명변수간의 강한 상관성을 공선형적(colinear)이라고 한다. 회귀에서 공선성의 존재는 매우 큰 문제를 일으키는데, 이유는 반응 변수에 대한 공선형 변수들의 개별 효과를 분리하기 어려울 수 있기 때문이다. 공선성은 회귀계수 추정치의 정확성을 낮추므로 개별 βj^\hat{\beta_{j}}에 대한 표준오차가 증가하게 한다. 따라서 공선성은 t-통계량을 줄인다(t-통계량은 βj^\hat{\beta_{j}}를 그 표준오차로 나누어 계산하기 때문).

공선성을 검출하는 간단한 방법은 설명변수들의 상관행렬을 살펴보는 것이다. 하지만 유감스럽게도 모든 공선성 문제가 상관행렬에 의해 발견되는 것이 아니다. 특히 두 개의 쌍을 이루는 변수끼리 공선성을 갖지 않더라도 세개 또는 그 이상의 변수들 사이에 공선성을 가질 수 있다. 이를 다중공선성(multicollinearity)라고 한다.
공선성을 검출하는 가장 확실한 방법은 분산팽창인수(variance inflaction factor(VIF))를 계산하는 것이다. VIF는 전모델(full model) 적합 βj^\hat{\beta_{j}}의 분산을 자신만의 적합에 대한 βj^\hat{\beta_{j}}의 분산으로 나눈 비율이다.
VIF(βj^)=11RXjXj2VIF(\hat{\beta_{j}}) = \frac{1}{1-R^{2}_{X_{j}|X_{-j}}}
VIF의 가능한 가장 작은 값은 1이며, 공선성이 전혀 없음을 나타낸다. 현실세계의 대부분의 데이터는 설명변수들 사이에 작은 양의 공선성이 있고, 5 또는 10을 초과하는 VIF 값은 문제가 있는 정도로 판정한다.

공선성 문제를 해결하는 대표적인 방법 2가지는 다음과 같다.

  1. 회귀에서 문제가 있는 변수들 중 하나를 제외한다.
  2. 공선성 변수를 단일 설명변수로 결합한다.

References
1. Understanding Diagnostic Plots for Linear Regression Analysis
2. RN Financial Research Centre - Lesson 3 - Simple Linear Regression

profile
앱노멀한 삶을 꿈꾸며

0개의 댓글