단일 변수 데이터를 다양한 그래프로 시각화하여 전체적인 관점으로 살펴보는 것이 목적
| 시각화 | 비시각화 |
|---|---|
| 직관적 이해 추구 | 효과적인 데이터 요약 |
| 정보 전달 시간 단축 | 빠른 데이터 성격 파악 |
파이 차트막대그래프범주의 수가 많거나 범주 별 크기가 유사하면 비교가 어려운
파이 차트
범주 별 비교는막대그래프기반의 파악이 비교적 수월함
히스토그램막대그래프와 유사한 형태를 보유히스토그램은 연속형 변수의 빈도 분포를 표현막대그래프는 범주형(이산형 포함)변수의 빈도표 비교 표현커널 밀도 추정히스토그램을 한계점을 극복하기 위해 고안된 방안박스플롯 5가지 요약치 : 1.중앙값 2.1분위수 3.3분위수 4.최대값 5.최소값#필요한 라이브러리
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
범주형 일변량 시각화
- 파이차트
- 막대그래프
파이차트 실습
#범주형 데이터로 변환
#파이차트 생성을 위한 빈도 table 생성
pie_df_G5 = pd.DataFrame(housing_data['AGE_G5'].vlaue.counts())
#파이차트 생성시 범주 별 크기에 따른 sorting 후 plotting
pie_df_G5
#파이차트 생성
pie_df_G5.plot.pie(y='AGE_65', figsize=(10,10), colors = sns.color_palette('his',len(pie_df_G5)))
pit.show()
막대그래프 실습
#막대그래프 생성
pie_df_G5.plot.bar(y='AGE_65', figsize=(6,6), colors = sns.color_palette('his',len(pie_df_G5)))
plt.show()
연속형 일변량 시각화
- 히스토그램
- 커널밀도추정
- 박스플롯
히스토그램, 커널밀도추정 실습
#히스토그램 시각화
housing_data["RM"].plot.hist()
plt.show()
#구간 세분화
housing_data["RM"].plot.hist(bins = 30)
#커널밀도추정 시각화
sns.kdeplot(housing_data["RM"])
plt.show()
#함께 시각화
sns.histplot(housing_data["RM"], bins=30, kde=True)
#CRIM 변수 시각화
fig, ax = plt.subplots(ncols=2, figsize=(15,5))
sns.histplot(housing_data["CRIM"], bins=20, ax=ax[0])
sns.kdeplot(housing_data["CRIM"], ax=ax[1])
plt.show()
박스플롯 실습
#Box Plot 시각화
housing_data.boxplot(figsize=(20,10))
plt.show()