탐색적 데이터 분석(Exploratory Data Analysis, EDA)
데이터의 시각화, 기술통계 등의 방법을 통해 데이터를 이해하고 탐구하는 과정.
데이터에 대한 정보를 얻을 수도 있고, 적절한 모델링에 대한 정보도 얻을 수 있음.
예측 모델링이 아니더라도 데이터 분석에서는 반드시 필요.
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
tips_df = sns.load_dataset('tips')
tips_df.head(3)

tips_df.describe(include = 'all')

sns.countplot(data = tips_df, x = 'day', hue = 'day')

sns.barplot(data = tips_df, x = 'sex', y = 'tip', estimator = 'mean', hue = 'sex')

sns.boxplot(data = tips_df, x = 'time',y = 'total_bill', hue = 'time')

sns.histplot(data = tips_df, x = 'total_bill')

tips_df['total_bill'].hist()
tips_df['total_bill'].plot.hist()

sns.scatterplot(data = tips_df, x = 'total_bill', y = 'tip')

sns.pairplot(data = tips_df)
