[비정제 데이터] 다중공선성, 종속변수와의 상관관계가 높다면?

jul ee·2025년 4월 15일

데이터 성장기

목록 보기
51/139

중고차 가격 예측 모델을 위한 데이터 정제 프로젝트를 진행하면서 따로 정리해 보면 좋을 인사이트를 발견해 가져와 보았다.


다중공선성은 독립변수들끼리 상관관계가 높을 때 문제가 되는 것이지, 종속변수와 독립변수 간의 상관관계가 높은 건 오히려 모델 입장에선 반가운 일이라는 것이다.

사실 다중공선성이 문제가 되는 논리를 생각해 보면 당연한 이야기일 수 있지만, 여기까지 생각하지 못했었다.

또한, 다중공선성을 고려하는 것을 너무 깊게 생각하다가 다중공선성은 생각하지 마라라는 글을 발견하게 되었는데 한 번 읽어봐도 좋을 것 같다 :)



다중공선성(Multicollinearity)이란

독립변수들끼리 서로 강한 상관관계를 가질 때 발생하는 문제이다.

선형 회귀, 로지스틱 회귀 등의 회귀 분석에서는 모델이 각 독립변수의 계수를 추정하게 되는데

만약 독립변수 A와 B가 거의 같은 값을 가지거나 매우 유사한 정보를 담고 있다면, 모델은 “이 효과가 A 때문인지 B 때문인지” 를 구분하기 어렵게 된다.

이로 인해 다음과 같은 문제가 발생할 수 있다.

  • 회귀 계수가 불안정해지고
  • 변수 해석이 어려워지며
  • 예측 성능은 유지될 수 있지만, 계수의 신뢰 구간이 넓어지거나
  • 변수 선택 과정에서 혼란이 생긴다.

이런 이유로 다중공선성은 모델의 해석력과 안정성에 부정적인 영향을 줄 수 있다.

하지만 여기서 중요한 점은, 이 문제는 독립변수들끼리의 상관관계에만 해당된다는 것이다.



종속변수와 독립변수 간 상관관계 또한 높으면 문제라고 생각할 수 있지만, 실제로는 그 반대이다.

종속변수와의 상관관계가 높다는 건, 해당 독립변수가 예측에 유용하다는 의미이다.

오히려 종속변수와 아무 관계도 없는 독립변수는 모델에 넣을 이유가 적다.



앞서 언급한 프로젝트에서는 중고차의 판매 가격 예측 모델을 만들기 위해 데이터를 정제하였다.
이때 예측 대상인 종속변수는 Price, 이외의 변수들은 예측에 사용되는 독립변수로 작용한다.

이 변수들 간의 상관관계를 살펴보기 위해 아래의 코드를 실행해 보면

df.corr()

다음과 같은 관계를 확인할 수 있다.

  • PriceRegistration_Year: 상관계수 +0.7

    →  차량의 연식(Registration_Year)이 길수록(즉, 신차일수록) 가격이 높다는 경향이 강하게 나타난다.

    →  이처럼 종속변수인 Price와 상관관계가 높은 독립변수는 예측력을 높이는 유용한 특성이다.


그런데, 만약 아래의 상황을 가정해 본다면 어떨까?

  • MileageRegistration_Year: 상관계수 +0.9

    →  이 경우에 두 변수는 모두 독립변수이며, 이처럼 높은 상관관계를 가지면 서로 중복된 정보를 갖고 있을 가능성이 크다.

예를 들어, 차량의 등록 연도가 오래됐을수록 일반적으로 주행거리가 많을 가능성이 높다.

즉, MileageRegistration_Year은 서로 다른 변수처럼 보이지만, 실제로는 유사한 의미를 담고 있을 수 있는 것이다.

이 상황에서 회귀 모델은

  • Price가 낮아진 이유가 Mileage가 높아서인지(주행 거리가 길어서인지),
  • 아니면 Registration_Year가 낮아서(연식이 오래돼서)인지

정확히 구분하기 어려워지게 된다.

이것이 바로 다중공선성의 핵심 문제이다.




결국 다중공선성에서 우리가 정말 신경 써야 할 것은,

독립변수들끼리 지나치게 유사한 정보를 담고 있지는 않은지를 판단하는 것이다.

종속변수와의 상관관계가 높다는 이유로 걱정할 필요는 없다. 그건 오히려 모델 입장에선 예측력을 높이는 좋은 신호일 수 있다.

그리고 무엇보다 중요한 건,
“무엇이 정말 문제인지” 를 정확히 이해하는 것이다.

엉뚱한 지점에 매몰될 수 있지만, 문제의 본질에 집중하는 태도를 갖는다면 방향을 잡아 나갈 수 있다는 걸 해당 프로젝트를 통해 깨닫게 되었다.

profile
AI에 관심을 가지고, 데이터로 가치를 만들어 나가는 과정을 기록합니다.

0개의 댓글