11. Visualization

j_hyun11·2022년 1월 5일
0

FUNDAMENTAL

목록 보기
3/11

1. 데이터 준비


1) 데이터 불러오기

  • Seaborn의 load_dataset() 메서드를 이용
import pandas as pd
import seaborn as sns

tips = sns.load_dataset("tips")

2) EDA

  • 결측값 확인
  • 수치형, 범주형 데이터인지 확인

2. 범주형 데이터 vs 수치형 데이터


1) 범주형

  • 주로 막대그래프
  • Pandas와 Matplotlib를 활용
  • Seaborn과 Matplotlib을 활용
plt.bar(x = x, height = y)
sns.barplot(data= , x= , y= )

2) 수치형

  • 산점도
sns.scatterplot(data= , x= , y= , palette= , hue=)
  • 선 그래프
sns.lineplot(x= , y= )
  • 히스토그램
sns.histplot(data= , label = )

3. 시계열 데이터


- 예) 1949년-1960년도별 탑승객 예제 데이터
# 막대그래프
sns.barplot(data=flights, x='year', y='passengers')

# 선 그래프, 점 추정치 및 신뢰구간을 표시
sns.pointplot(data=flights, x='year', y='passengers')

# 선 그래프1
sns.lineplot(data=flights, x='year', y='passengers')

# 선 그래프2
sns.lineplot(data=flights, x='year', y='passengers', hue='month', palette='ch:.50')
plt.legend(bbox_to_anchor=(1.03, 1), loc=2) #legend

# 히스토그램
sns.histplot(flights['passengers'])

4. Heatmap


  • 데이터와 현상을 수치에 따라 색상으로 나타냄
  • 2차원으로 시각화
  • 데이터를 pivot해서 사용
sns.heatmap(pivot)
sns.heatmap(pivot, linewidths=.2, annot=True, fmt="d")
sns.heatmap(pivot, cmap="YlGnBu")

0개의 댓글