Data Science - 다변량 비시각화 탐색

cosmosJ·2024년 2월 13일

데이터 분석

목록 보기

15/26

다변량 비시각화 탐색은 2개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형이다.

일변량 데이터 탐색은 하나의 데이터 유형을 탐색하므로, 개별 데이터를 파악하는 것에 목적을 두었다. 그러나, 다변량 데이터 탐색은 개별 속성을 기반으로 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 그 목적이다.
따라서, 일변량 분석과는 달리, 데이터 분석 단계에서 가장 많은 수고와 고려가 이루어져 분석 및 설계되는 단계이다.
변수 간의 관계 파악을 통해서, 변수를 선택하거나, 그룹핑하거나, 파생 변수를 생성하는 등의 고려 및 방안이 많이 존재한다.

교차표 : 데이터가 범주별 조합에 따라 어느정도의 빈도로 구성되어 있고, 어느 특정 조합이 비교적 우위로 나타나는지 파악
- ex. 특정 범주 별 조합이 타깃인 변수와 관계가 깊고 얕음을 빈도 구성을 통해 파악 가능
범주 별 통계량 : 특정 기법이라기 보다는, 데이터별 특정 대표값을 파악하여 범주 별로 차이를 보기 위해 많이 사용되는 방안
상관계수 : 특정 변수 간 상관계수가 도출되고, 상관계수의 값이 높고, 낮음을 통해서 변수 간의 관계성이 큰지, 작은지 판단

범주형 - 범주형 변수 조합 간 연관관계 파악

위의 그림처럼 서로 다른 범주를 묶어 교차표를 그려, 각 변수의 범주마다의 비교를 통해 새로운 인사이트를 구할 수 있음

위의 그림 처럼 3개 이상의 범주형 특성을 이용하여 보다 세밀하게, 범주 간의 관계를 파악할 수 있음.

범주형 - 연속형 변수 조합 간 범주 별 대표 수치 비교

위와 같은 방법은 데이터를 설명하기 위한 리포팅 자료나 보고서에서도 많이 사용됨.

연속형-연속형 변수 간의 관계성 강도 파악

연속형 변수들 간의 어떤 관계를 가지고 있는지 파악하기 위한 방법으로, 두 변수가 서로 독립적이거나, 상반된 관계일 수 도 있으며, 이러한 관계를 상관관계로 지칭한다.
상관계수는 두 변수 간의 연관된 정도를 나타낼 뿐으로, 원인과 결과를 확인하는 것은 아니다.
두 변수 간의 인과관계는 회귀 분석을 통해서 인과관계의 방향, 정도 등을 확인할 수 있다.

절대값으로 표현했으나, 상관계수는 -1 ~ 1의 값으로 표현하게 된다.

비슷한 정보를 제공하는 밀접한 관계의 변수 (강한 상관관계를 가진 변수)

따라서, 높은 상관관계를 가지는 경우, 데이터의 의존성으로 인해 모델링에 문제를 야기하므로, 미리 데이터 분석 과정에서 이에 대한 사전 고려가 필요하다.

만약, 타깃 변수를 예측하는 것이 유일한 목표이고, 독립 변수의 영향력에 대해서 파악할 필요가 없다면, 상관없이 그냥 사용해도 된다 라는 연구 결과도 일부 존재하기는 함. (다만, 현업에서는 결과와 해석 모두 중요할 수 있으므로 해당 부분은 고려가 필요)

다중 공선성을 해결하기 위한 몇가지 방안이 존재한다.

실제 데이터는 시간에 따라 어느정도 변화하기 때문에, 완벽하게 다중 공선성을 제거하고, 100% 독립 변수만 남기는 것은 불가능하다.
- 따라서, 상관계수가 기준치보다 높게 나오는 컬럼 중에서 하나를 고르고, 나머지는 삭제하는 방안을 통해 변수 선택을 고려할 수 있다.
분석의 목표를 고려하여 좀더 적합한 컬럼을 선택하거나, 종속 변수와 상관관계가 더 밀접한 관계를 가지고 있는 변수를 선택한다.
도메인 지식을 바탕으로 의존적으로 변수를 삭제하거나,
상관성이 높은 변수들을 PCA 등의 방법으로 변수를 통합하여 새로운 특징을 생성하거나,
변수의 간격을 정규화 등으로 조절하여 해결하는 등의 방안이 존재

위와 같이 서로 다른 변수들을 조합해보며, 데이터의 특성 및 상관관계를 찾아나가는 과정이 다변량 탐색 과정이며, 이러한 과정을 통해 새로운 규칙 기반의 파생 변수 생성, 변수 선택 및 구성에 대한 근거를 마련할 수 있다.

백엔드, Data Science, AI 분야 학습 내용을 정리하는 블로그입니다.