1. 용어 정리
2. 분산분석이란?
3. 예제
import pandas as pd
import numpy as np
url = "https://raw.githubusercontent.com/gedeck/practical-statistics-for-data-scientists/master/data/four_sessions.csv"
four_sessions = pd.read_csv(url)
observed_variance = four_sessions.groupby('Page').mean().var()[0]
print('Observed means:', four_sessions.groupby('Page').mean().values.ravel())
print('Variance:', observed_variance)
def perm_test(df):
df = df.copy()
df['Time'] = np.random.permutation(df['Time'].values)
return df.groupby('Page').mean().var()[0]
perm_variance = [perm_test(four_sessions) for _ in range(3000)]
print('Pr(Prob)', np.mean([var > observed_variance for var in perm_variance]))
1. F 통계량
2. 예제: ANOVA 테이블 계산
import statsmodels.api as sm
import statsmodels.formula.api as smf
model = smf.ols('Time ~ Page', data = four_sessions).fit()
aov_table = sm.stats.anova_lm(model)
aov_table
1. 주요 개념
피터 브루스, 앤드루 브루스의 <데이터 과학을 위한 통계(2판): 데이터 분석에서 머신러닝까지 50가지 핵심 개념> 을 읽고 정리한 내용입니다.