연속형 변수 시각화

딩나·2023년 11월 15일
post-thumbnail
# 시각화 라이브러리
import matplotlib.pyplot as plt
import seaborn as sns

# 데이터 생성 및 관리를 위한 라이브러리
import numpy as np
import pandas as pd

data)

상자 그림(Box plot)

sns.boxplot(data['continue01'])
plt.show()

1. 정의

  • 상자 그림은 데이터의 중앙값, 사분위수, 이상치 등의 통계적 분포를 시각적으로 표현하는 그래프
  • 주로 연속형 변수의 분포를 확인하는 데 사용되나, 범주형 변수와 함께 연속형 변수의 분포를 확인하는 데 사용되기도 함

2. 어떤 데이터일때 사용하는지?

연속형 변수의 분포, 중앙값, 변동성, 이상치 등의 통계적 특성을 한눈에 파악하고 싶을 때 사용

3. 언제 사용해야 하는지?

데이터의 중앙값, 사분위 범위, 이상치 등의 통계적 특성을 파악하고자 할 때 사용

4. 장단점

  • 장점

    • 중앙값, 사분위, 이상치 등의 여러 통계적 특성을 간결하게 표현
  • 단점

    • 데이터의 실제 분포 형태나 밀도 등의 세부적인 정보를 제공하지 않음
    • 지나치게 큰 데이터셋에서는 모든 데이터가 밀집되어 있어 이상치를 정확하게 식별하기 어려울 수 있음

히스토그램(Histogram)

sns.histplot(data['continue01'], kde=True)
plt.show()

1. 정의

  • 히스토그램은 데이터의 분포를 막대 형태로 시각화하는 그래프
  • 연속형 데이터를 일정한 구간으로 나눈 후, 각 구간에 속하는 데이터의 개수를 막대로 표현

2. 어떤 데이터일때 사용하는지?

연속형 변수의 분포와 빈도를 확인하고 싶을 때 사용

3. 언제 사용해야 하는지?

  • 데이터의 분포와 중심 경향성, 퍼짐 정도를 파악하고자 할 때 사용
  • 데이터 내의 이상치나 특정 패턴을 확인하고자 할 때 사용

4. 장단점

  • 장점

    • 데이터의 전체적인 분포를 직관적으로 파악할 수 있음
    • 데이터의 중심 경향성, 퍼짐 정도, 왜도 등의 통계적 특성을 한눈에 확인할 수 있음
  • 단점

    • 구간의 크기와 시작점에 따라 히스토그램의 모양이 달라질 수 있음
    • 너무 세분화된 구간이나 큰 구간을 선택하면 데이터의 실제 분포를 왜곡하여 표현할 수 있음

산점도(Scatter plot)

sns.scatterplot(data=data, x='continue01', y='continue02')
plt.show()

1. 정의

  • 산점도는 두 변수 간의 관계를 점으로 표현하는 그래프
  • 각 점은 두 변수의 값에 따라 그래프 상의 위치를 가짐

2. 어떤 데이터일때 사용하는지?

두 연속형 변수 간의 관계나 상관관계를 확인하고 싶을 때 사용

3. 언제 사용해야 하는지?

  • 두 변수 간의 관계나 경향성을 파악하고자 할 때 사용
  • 두 변수 간의 상관관계의 강도나 방향을 확인하고자 할 때 사용
  • 특정 패턴이나 이상치를 탐색하고자 할 때 사용

4. 장단점

  • 장점

    • 두 변수 간의 관계를 직접적이고 직관적으로 확인할 수 있음
    • 데이터의 이상치나 특정 패턴을 쉽게 발견할 수 있음
  • 단점

    • 대량의 데이터를 표현할 때 점들이 겹쳐서 정확한 분포를 파악하기 어려울 수 있음
    • 선형적이지 않은 관계나 복잡한 패턴을 해석하기 어려울 수 있음

히트맵(Heatmap)

sns.heatmap(data.corr(), annot=True)
plt.show()

1. 정의

  • 히트맵은 데이터의 행렬을 색상의 차이를 통해 시각적으로 표현하는 그래프
  • 본 경우에는 두 연속형 변수 간의 상관계수를 색상으로 나타냄

2. 어떤 데이터일때 사용하는지?

연속형 변수들 간의 상관관계를 시각적으로 표현학 싶을 때 사용

3. 언제 사용해야 하는지?

  • 여러 연속형 변수 간의 상관관계를 동시에 파악하고자 할 때 사용
  • 변수들의 상관관계의 강도나 반향을 빠르게 확인하고자 할 때 사용

4. 장단점

  • 장점

    • 여러 연속형 변수 간의 상관관계를 한눈에 빠르게 파악할 수 있음
    • 색상의 차이를 통해 상관관계의 강도를 직관적으로 이해할 수 있음
  • 단점

    • 너무 많은 변수를 포함시킬 경우 히트맵이 복잡해져서 파악하기 어려울 수 있음
    • 단순히 상관계수만을 나타내므로 인과관계를 의미하지는 않음

0개의 댓글