1. 데이터 준비
1) 데이터 불러오기
- Seaborn의 load_dataset() 메서드를 이용
import pandas as pd
import seaborn as sns
tips = sns.load_dataset("tips")
2) EDA
2. 범주형 데이터 vs 수치형 데이터
1) 범주형
- 주로 막대그래프
- Pandas와 Matplotlib를 활용
- Seaborn과 Matplotlib을 활용
plt.bar(x = x, height = y)
sns.barplot(data= , x= , y= )
2) 수치형
sns.scatterplot(data= , x= , y= , palette= , hue=)
sns.lineplot(x= , y= )
sns.histplot(data= , label = )
3. 시계열 데이터
- 예) 1949년-1960년도별 탑승객 예제 데이터
sns.barplot(data=flights, x='year', y='passengers')
sns.pointplot(data=flights, x='year', y='passengers')
sns.lineplot(data=flights, x='year', y='passengers')
sns.lineplot(data=flights, x='year', y='passengers', hue='month', palette='ch:.50')
plt.legend(bbox_to_anchor=(1.03, 1), loc=2)
sns.histplot(flights['passengers'])
4. Heatmap
- 데이터와 현상을 수치에 따라 색상으로 나타냄
- 2차원으로 시각화
- 데이터를 pivot해서 사용
sns.heatmap(pivot)
sns.heatmap(pivot, linewidths=.2, annot=True, fmt="d")
sns.heatmap(pivot, cmap="YlGnBu")