import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import pandas as pd
data)

상자 그림(Box plot)
sns.boxplot(data['continue01'])
plt.show()

1. 정의
- 상자 그림은 데이터의 중앙값, 사분위수, 이상치 등의 통계적 분포를 시각적으로 표현하는 그래프
- 주로 연속형 변수의 분포를 확인하는 데 사용되나, 범주형 변수와 함께 연속형 변수의 분포를 확인하는 데 사용되기도 함
2. 어떤 데이터일때 사용하는지?
연속형 변수의 분포, 중앙값, 변동성, 이상치 등의 통계적 특성을 한눈에 파악하고 싶을 때 사용
3. 언제 사용해야 하는지?
데이터의 중앙값, 사분위 범위, 이상치 등의 통계적 특성을 파악하고자 할 때 사용
4. 장단점
-
장점
- 중앙값, 사분위, 이상치 등의 여러 통계적 특성을 간결하게 표현
-
단점
- 데이터의 실제 분포 형태나 밀도 등의 세부적인 정보를 제공하지 않음
- 지나치게 큰 데이터셋에서는 모든 데이터가 밀집되어 있어 이상치를 정확하게 식별하기 어려울 수 있음
히스토그램(Histogram)
sns.histplot(data['continue01'], kde=True)
plt.show()

1. 정의
- 히스토그램은 데이터의 분포를 막대 형태로 시각화하는 그래프
- 연속형 데이터를 일정한 구간으로 나눈 후, 각 구간에 속하는 데이터의 개수를 막대로 표현
2. 어떤 데이터일때 사용하는지?
연속형 변수의 분포와 빈도를 확인하고 싶을 때 사용
3. 언제 사용해야 하는지?
- 데이터의 분포와 중심 경향성, 퍼짐 정도를 파악하고자 할 때 사용
- 데이터 내의 이상치나 특정 패턴을 확인하고자 할 때 사용
4. 장단점
-
장점
- 데이터의 전체적인 분포를 직관적으로 파악할 수 있음
- 데이터의 중심 경향성, 퍼짐 정도, 왜도 등의 통계적 특성을 한눈에 확인할 수 있음
-
단점
- 구간의 크기와 시작점에 따라 히스토그램의 모양이 달라질 수 있음
- 너무 세분화된 구간이나 큰 구간을 선택하면 데이터의 실제 분포를 왜곡하여 표현할 수 있음
산점도(Scatter plot)
sns.scatterplot(data=data, x='continue01', y='continue02')
plt.show()

1. 정의
- 산점도는 두 변수 간의 관계를 점으로 표현하는 그래프
- 각 점은 두 변수의 값에 따라 그래프 상의 위치를 가짐
2. 어떤 데이터일때 사용하는지?
두 연속형 변수 간의 관계나 상관관계를 확인하고 싶을 때 사용
3. 언제 사용해야 하는지?
- 두 변수 간의 관계나 경향성을 파악하고자 할 때 사용
- 두 변수 간의 상관관계의 강도나 방향을 확인하고자 할 때 사용
- 특정 패턴이나 이상치를 탐색하고자 할 때 사용
4. 장단점
-
장점
- 두 변수 간의 관계를 직접적이고 직관적으로 확인할 수 있음
- 데이터의 이상치나 특정 패턴을 쉽게 발견할 수 있음
-
단점
- 대량의 데이터를 표현할 때 점들이 겹쳐서 정확한 분포를 파악하기 어려울 수 있음
- 선형적이지 않은 관계나 복잡한 패턴을 해석하기 어려울 수 있음
히트맵(Heatmap)
sns.heatmap(data.corr(), annot=True)
plt.show()

1. 정의
- 히트맵은 데이터의 행렬을 색상의 차이를 통해 시각적으로 표현하는 그래프
- 본 경우에는 두 연속형 변수 간의 상관계수를 색상으로 나타냄
2. 어떤 데이터일때 사용하는지?
연속형 변수들 간의 상관관계를 시각적으로 표현학 싶을 때 사용
3. 언제 사용해야 하는지?
- 여러 연속형 변수 간의 상관관계를 동시에 파악하고자 할 때 사용
- 변수들의 상관관계의 강도나 반향을 빠르게 확인하고자 할 때 사용
4. 장단점
-
장점
- 여러 연속형 변수 간의 상관관계를 한눈에 빠르게 파악할 수 있음
- 색상의 차이를 통해 상관관계의 강도를 직관적으로 이해할 수 있음
-
단점
- 너무 많은 변수를 포함시킬 경우 히트맵이 복잡해져서 파악하기 어려울 수 있음
- 단순히 상관계수만을 나타내므로 인과관계를 의미하지는 않음