범주형 변수 시각화

딩나·2023년 11월 15일
# 시각화 라이브러리
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성 및 관리를 위한 라이브러리
import pandas as pd
import numpy as np

예시 데이터 (data)

continuecategory
02C
184C
217A
355B
489A

막대 그래프(Bar chart)

sns.countplot(data=data, x='category')
plt.show()

1. 정의

범주형 데이터를 막대 형태로 시각화하는 도구이며, 각 막대의 높이는 해당 범주의 빈도수를 나타낸다.

2. 어떤 데이터일때 사용하는지?

범주형 변수의 각범주의 빈도수나 비율을 확인하고 싶을 때 사용한다.

3. 언제 사용해야 하는지?

  • 범주형 변수의 전반적인 분포를 파악하고자 할 때 사용한다.
  • 여러 그룹 간의 범주형 변수의 분포를 비교하고 싶을 때 사용한다.

4. 장단점

  • 장점

    • 다양한 범주 간의 빈도수를 직접 비교할 수 있어 어떤 범주가 더 많은지, 부족한지 쉽게 확인할 수 있다.
    • 범주형 변수의 각 범주의 빈도수를 명확하게 표현하여 한눈에 데이터의 분포를 파악할 수 있다.
  • 단점

    • 데이터의 빈도사 매우 낮은 범주는 그래프에서 거의 표시되지 않을 수 있다.
    • 범주의 수가 너무 많은 경우, 그래프가 복잡해져서 한눈에 파악하기 어려울 수 있다.

원형 그래프(Pie chart)

data['category'].value_counts().plot.pie(autopct='%1.1f%%')
plt.show()

1. 정의

  • 원형 그래프는 범주형 변수의 각 범주가 전체에 차지하는 비율을 원형 그래프로 나타내는 시각화 도구이다.
  • 각 부채꼴의 크리는 해당 범주의 비율을 나타낸다.

2. 어떤 데이터일때 사용하는지?

범주형 변수의 각범주가 전체 중 어느 정도의 비율을 차지하는지를 나타내고 싶을 때 사용한다.

3. 언제 사용해야 하는지?

  • 전채 중 트정 범주의 상대적 비율이나 중요성을 강조하고자 할 때 사용
  • 여러 범주의 비율을 직관적으로 비교하고 싶을 때 사용

4. 장단점

  • 장점

    • 각 범주의 상대적 비율을 한눈에 파악하기 쉬움
    • 다양한 색상을 사용하여 범주를 구분하므로 시각적으로 독특하고 눈에 띄게 표현할 수 있음
  • 단점

    • 너무 많은 범주가 있을 경우 원형 그래프는 복잡해지고 읽기 워려워질 수 있음
    • 작은 비율의 범주들은 구분하기 어려울 수 있으며, 두 범주의 비율이 매우 유사할 경우 정확한 비교가 어려움

상자그림(Box plot)

sns.boxplot(data=data, x='category', y='continue')
plt.show()

1. 정의

상자그림은 연속현 변수의 분포와 중앙값, 사분위수, 이상치 등의 통계적 특성을 한눈에 파악하기 위한 시각화 도구이다.

2. 어떤 데이터일때 사용하는지?

범주형 변수에 따르연속형 변수의 분포, 중앙값, 사분위 범위 등의 통계적 특성을 비교하고 싶을 때 사용

3. 언제 사용해야 하는지?

  • 다른 범주 간의 연속형 변수의 분포 차이를 명확하게 확인하고자 할 때 사용
  • 특정 범주 내에서 연속형 변수의 이상치를 탐지하고자 할 때 사용

4. 장단점

  • 장점

    • 중앙값, 사분의 범위, 이상치 등 연속형 변수의 여러 통계적 특성을 한눈에 파악할 수 있음
    • 여러 범주 간의 연속형 변수 분포를 직접 비교할 수 있음
  • 단점

    • 데이터의 실제 분포 형태는 파악하기 어려울 수 있음
    • 많은 수의 범주를 비교할 경우 그래프가 복잡해질 수 있음

바이올린 플롯(Violin plot)

sns.violinplot(data=data, x='category', y='continue')
plt.show()

1. 정의

  • 바이올린 그래프는 상자그리과 커널 밀도 추정을 결합한 시각화 도구
  • 범주형 변수에 따르연속형 변수의 분포와 밀도를 동시에 표현

2. 어떤 데이터일때 사용하는지?

범주형 변수에 따른 연속형 변수의 분포와 밀도를 상세하게 파악하고 싶을 때 사용

3. 언제 사용해야 하는지?

  • 범주 간의 연속형 변수의 분포 차이를 상세하게 비교하고자 할 때 사용
  • 데이터의 분표 형태와 중앙값, 사분위 범위 등의 통계적 특성을 동시에 확인하고자 할 때 사용

4. 장단점

  • 장점

    • 연속형 변수의 분포와 밀도를 상세하게 표현하여 데이터의 특성을 명확하게 파악할 수 있음
    • 중앙값, 사분위 범위 등의 통계적 특성과 함께 데이터의 실제 분포 형태도 함께 확인할 수 있습니다.
  • 단점

    • 처음 보는 사용자에게는 해석이 다소 복잡할 수 있음
    • 많은 수의 범주나 데이터 포인트를 포함할 경우 그래프가 복잡해질 수 있음

0개의 댓글