기초통계 (5-2) 두 개 이상의 변수 탐색하기

생각하는 마리오네트·2021년 9월 25일
0

통계

목록 보기
18/41

평균과 분산과 같이 익숙한 추정값들은 한 번에 하나의 변수를 다룬다(일변량 분석). 상관분석은 두 변수(이변량 분석)를 비교할 때 중요한 방법이다. 이번에는 이에 관한 추정법과 도표를 살펴보고 셋 이상의 변수(다변량분석)을 다루는 방법을 살펴볼 것이다.

📈 용어정리

  • 분할표(contingency table) : 두 가지 이상의 범주형 변수의 빈도수를 기록한 표
  • 육각형 구간 : 두 변수를 육각형 모양의 구간으로 나눈 그림
  • 등고 도표(contour plot) : 지도상에 같은 높이의 지점을 등고선으로 나타내는 것처럼, 두 변수의 밀도를 등고선으로 표시한 도표
  • 바이올린 도표(violin plot) : 상자그림과 비슷하지만 밀도추정을 함께 보여준다.

📈 육각형 구간과 등고선(수치형 변수 대 수치형 변수 시각화)

  • 산점도(scatter)의 경우 데이터 개수가 상대적으로 적을 때는 시각화 하기 좋다. 하지만 수십, 수백만의 레코드를 나타내기에 점들이 너무 밀집되어 알아보기 어렵다. 따라서 이를 보완하기 위해 나온것이 육각형 구간이다.
  • 육각형 구간은 점으로 표시하는 대신 기록값을 육각형 모양의 구간들로 나누고 각 구간에 포함된 기록값의 개수에 따라 색깔로 표시한다.
  • 이렇게 함으로서 상관관계도 파악할 수 있고 밀집의 정도역시 파악하기에 용이하다.
  • python의 경우 hexbinplot을 이용하여 만들 수 있고 다음과 같은 형태이다.

  • 두 수치형 변수사이의 관계를 시각화 하기위해 두번째로 산점도 위에 등고선을 사용할 수 있다.
  • seabron의 kdeplot함수를 이용해서 가능하다.

📈 범주형 변수 대 수치형 변수

  • 상자그림은 범주형 변수에 따라 분류된 수치형 변수의 분포를 시각화하여 비교하는 간단한 방법이다. 하지만 이 상자그림을 더욱 보완한 형태인 바이올림 도표가 있다.
  • 바이올린 도표는 y축을 따라 밀도추정 결과를 동시에 시각화 한것이다. 즉, 상자그림에서 보이지 않은 데이터의 분포를 볼 수 있다는 것이다.
  • seaborn의 violinplot메서드를 통해 시각화 할 수 있다.
  • geom_boxplot함수를 추가한다면 바이올린 도표에 상자그림을 결합할 수 있다.

📈 다변수 시각화하기

  • python의 facetgrid를 통해 다변수를 시각화 할 수 있다.
profile
문제를해결하는도구로서의"데이터"

0개의 댓글