Confidence Intervals

이승수·2021년 7월 25일
0

Variation

여러 그룹간의 차이가 있는지를 확인하려면 F-statistic을 이용
F값이 높다
분자(다른 그룹끼리의 분산)는 크고, 분모(전체 그룹의 분산)는 작아야 한다
다른 그룹끼리의 분포가 다를 것이다 라는 가정이 붙는다

큰 수의 법칙

sample 데이터의 수가 커지수록 sample의 통계치는 점점 모집단의 모수와 같아진다

중심극한정리(Central Limit Theorem, CLT)

sample 데이터의 수가 많아질수록 sample의 평균은 정규분포에 근사한 형태로 나타난다
예측하는 구간이 넓어질수록 맞을 확률(신뢰도)은 올라감

신뢰도

신뢰도가 95%라는 의미는 표본을 100번 뽑았을 때 95번은 신뢰구간 내에 모집단의 평균이 포함된다

from scipy.stats import t
n = len(df)    # 표본의 크기
dof = n-1    # 자유도
m = df.mean()    # 평균
df_std = np.std(df, ddof = 1)    # 표준편차
std_err1 = df_std / (n ** 0.5)    # 표준 오차
CI1 = t.interval(.95, dof, loc = m, scale = std_err1) 

(0.01506, 0.02843)    # 95%에 해당하는 신뢰구간
profile
AI/Data Science

0개의 댓글

관련 채용 정보