※ 들어가기 전

sns.barplot
분산분석
sns.barplot(x="sex", y="tip", data=tips)
plt.grid()
plt.show()

import scipy.stats as spst
temp = tips.loc[tips['sex'].notnull()] # 결측치 제거
female = temp.loc[temp['sex']=='Female', 'tip']
male = temp.loc[temp['sex']=='Male', 'tip']
spst.ttest_ind(male, female)
'''
TtestResult(statistic=1.387859705421269, pvalue=0.16645623503456755, df=242.0)
'''
# t-통계량이 2보다 작음 : 성별에 따른 팁의 차이는 존재하지 않음
# p-value가 0.05보다 큼 : 통계적 관계가 존재하지 않음
sns.barplot(x="day", y="tip", data=tips)
plt.grid()
plt.show()

temp = tips.loc[tips['day'].notnull()]
# 그룹별 저장
sun = temp.loc[temp['day'] == 'Sun', 'tip']
sat = temp.loc[temp['day'] == 'Sat', 'tip']
thur = temp.loc[temp['day'] == 'Thur', 'tip']
fri = temp.loc[temp['day'] == 'Fri', 'tip']
spst.f_oneway(sun, sat, thur, fri)
'''
F_onewayResult(statistic=1.6723551980998697, pvalue=0.1735885553040592)
'''
# 요일에 따른 팁의 차이는 존재하지 않고, 통계적 관계도 맺지 않음
※ 만약