주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악
| 데이터 조합 | 시각화 방안 | 목적 |
|---|---|---|
| 범주형-범주형 | 모자이크플롯 | 두 개 범주형 변수 내 범주 별 조합의 빈도 크기를 개략적으로 파악 |
| 범주형-연속형 | 박스플롯 평행좌표 | 범주 별 기술통계량 및 경향성을 개략적으로 파악 |
| 연속형-연속형 | 산점도 | 연속형 변수 간 관계성을 개략적으로 파악(선형/비선형 및 음양 방향 등) |




모자이크 플롯
범주 별 조합 그룹 비교 시각화
조합 간의 크기의 우위를 개략적으로 파악하는 것이 목적
#모자이크 플롯 시각화 패키지 로딩
from statsmodels.graphics.mosaicplot import mosaic
#2개 범주 시각화
mosaic(housing_data,['MEDV_G', 'INDUS_G'])
plt.show()
박스플롯
#box plot 시각화
plt.figure(figsize = (10,10))
sns.boxplot(data = housing_data, x='MEDV_G', y='RM')
plt.show()
#데이터 관측치 별 위치 poin추가
plt.figure(figsize = (10,10))
sns.boxplot(x="MEDV_G", y="RM", data=housing_data)
sns.striplot(x="MEDV_G", y="RM", data=housing_data, color="0.4")
plt.show()
평행좌표
#평행좌표 시각화 패키지 로딩
from pandas.plotting import parallel_coordinates
#실습
plt.figure(figsize=(15,10))
parallel_coordinates(sub_data, 'MEDV_G', colormap = plt.get_cmap('jet'), alpha=0.5)
plt.show()
산점도
연속형 변수 간 관계를 개략적으로 파악하기 위한 시각화
변수 간 선형성 및 양과 음의 관계성 등을 파악 가능
#하위계층 비율과 평균 방의 개수간 상관관계확인
plt.figure(figsize=(10,8))
sns.scatterplot(x='LSTAT', y='RM', data = housing_data)
plt.show()
import scipy.stats as stats
stats.pearsonr(housing_data.LSTAT, housing_data.RM)
HeatmapHeatmap은 범주형 자료의 범주 별 별로 연속형 자료를 집계한 자료를 사용하여, 집계한 값에 비례하여 색을 다르게 해서 2차원으로 자료를 시각화하는 영역에 활용Heatmap으로 시각화하여 쉽게 파악 가능#모든 컬럼 간 상관관계 도출
np.round(housing_data.corr(), 2)
#상관관계 데이터프레임을 Heatmap으로 시각화
plt.figure(figsize=(15,12))
sns.heatmap(housing_data.corr(), annot=True, cmap='RdYIGn_r')
plt.show()

#범주별 빈도를 시각화를 위해 샘플 테이블 생성
sample_df = pd.DataFrame(sample_data, columns=columns)
#데이터 pivot
pivot_df = sample_df.pivot("city","year","visitor")
#pivot을 heatmap으로 시각화
plt.figure(figsize=(10,8))
sns.heatmap(pivot_df, annot=True, fmt='d') #annot : 빈도수, fmt : 빈도의 정수표현
plt.show()
다변량 데이터 시각화 : 데이터 관계, 구성, 현상을 한눈에 파악할 수 있는 장점 존재, 데이터 탐색 과정은 향후 데이터 분석 모델링 과정을 위한 인사이트확보를 위한 중요한 작업