Data Science - 다변량 시각화 탐색

cosmosJ·2024년 2월 13일

데이터 분석

목록 보기
16/26
post-thumbnail

다변량 시각화 탐색

2개 이상의 변수로 구성된 데이터의 관계를 시각화 기반으로 파악하는 데이터 탐색 유형

  • 주어진 변수간의 패턴과 트랜드 등 인사이트를 시각화를 통해 전체적으로 파악하는 것을 목적으로 한다.

  • 일변량 시각화처럼 시각화하는 방안이므로, 데이터의 조합간의 형상을 개략적으로 파악하여 분석에 활용한다.

다변량 시각화의 종류

데이터 조합시각화 방안목적
범주형 - 범주형모자이크 플롯두개의 범주형 변수 내 볌주 별 조합의 빈도 크기를 개략적으로 파악
범주형 - 연속형박스 플롯, 평행좌표범주 별 연속형 변수의 기술통계량 및 경향성을 개략적으로 파악
연속형 - 연속형산점도연속형 변수 간 관계성을 개략적으로 파악 (선형/비선형 및 음양 방향 등)

모자이크 플롯

범주형 - 범주형 변수 조합 내 그룹(SubGroup) 크기 비교

  • 범주 그룹 간 비중의 차이를 전체적으로 파악 가능

    • 각 범주 조합간 데이터의 빈도를 사각형의 크기로 표현한다.
    • 즉, 각 범주 조합간의 빈도를 사각형으로 한눈에 보기 위한 형태의 그래프이다.
  • 범주 수가 많고, 각 조합별 비중 차이가 크지 않을 경우, 전체적인 파악이 어려울 수 있음

    • 이런 경우에는 범주의 재범주화를 통해 특정 파악을 위한 범주 조합의 빈도를 확인할 수 있다. (ex. 전체 대비 얼마의 빈도를 가지는가?)
  • 각 조합별 구성의 빈도 크기의 우위를 표현한 것으로 빈도표를 시각화한 것을 보면 된다.

박스플롯

일변량 시각화 탐색에서도 언급했듯, 범주형 - 연속형 변수 조합 간 전반적인 요약 통계량 파악에 용이하다.

  • 하나의 그래프 안에 다양한 정보를 쉽게 표현 (일변량 시각화 탐색 참고)

    • 다만, 다변량 시각화에서의 박스 플롯의 활용은 범주별 연속형 데이터의 통계지표를 기반으로 생성된다. (즉, 범주 별 정보를 한눈에 파악할 수 있게 나타내는 그래프이다.)
  • 많은 데이터를 눈으로 직접 확인하기 어렵고, 대표적 통계 값만으로 파악하기 어려울 때 용이함

  • 범주 그룹(범주형 변수)간 수치(연속형 변수)의 집합 범위와 중앙값, 이상치 등을 빠르게 확인할 수 있다.

  • 기존의 비시각화 기반의 단순 수치값 비교(범주 별 요약 통계량 도출)보다 데이터가 설명하는 많은 정보 획득 가능

평행좌표

범주형-연속형 변수 조합 간 경향성 파악

  • 연속형 데이터를 기반으로 데이터의 각 행을 선으로 연결하는 형태의 다변량 시각화 방안이다.

    • 평행으로 나열 된 축 위에 각 값들을 점으로 표현하고, 행을 기준으로 연결한다.
    • 따라서, 연속형 데이터 기반 범주 별 경향성 파악에 용이하다.
    • 데이터의 트랜드 판단 가능
  • 연속형 변수간 단위 표준화가 이루어지기 전의 데이터로 시각화할 경우, 파악이 어려울 수 있다.

    • 동일 행에 위치한 데이터를 연결하는 것으로 동일 행에 위치한 데이터는 스케일이 동일해야 함.
  • 주어진 데이터 내의 해당 범주 간 경향성을 파악하기 위해 사용하며, 여러개의 연속형 변수의 흐름을 하나의 그래프 안에서 파악하기 위한 시각화 방안이다.

산점도

연속형-연속형 변수 간 상관도를 파악하는데 사용되는 방안이다.

  • 산점도는 다변량 연속형 변수를 시각화하는 가장 기본적인 방안이다.

    • 각각의 데이터들을 그래프 공간 상에 점의 형태로 뿌려놓은 형태이다.
    • 변수 간의 관계를 산점도를 통해 확인할 수 있는데, 이 관계가 상관관계이다.
  • 연속형 데이터 간의 관계를 그래프 상으로 어떠한 관계가 있는지 파악하기 위해 사용한다.

  • 변수 간 분포를 통해 선형 혹은 비선형 관계 및 음양의 방향 등을 빠르게 파악할 수 있다.

    • 변수의 분포가 선형에 가까울 경우, 상관관계가 높다고 볼 수 있다.
    • 반대로 선형에 멀수록, 상관관계가 낮다고 볼 수 있다.
    • 상관관계는 알 수 있으나, 인과관계는 모름.
  • 범주 Label 간 비교가 필요한 경우, 해당 부분의 그룹 정보를 표시하면, 변수 간 관계 및 범주 그룹 간 관계를 함계 파악 가능하다.


,

실습 코드

profile
백엔드, Data Science, AI 분야 학습 내용을 정리하는 블로그입니다.

0개의 댓글