[AI Bootcamp] N123 - Confidence Intervals

HYUNG JIN·2021년 7월 20일

AI ANOVA CLT bootcamp 데이터사이언스 신뢰구간 코드스테이츠

AI Bootcamp

목록 보기

7/17

Session Review

ANOVA(one-way)

review
T-test
one sample: 1개 그룹의 평균이 특정 수와 같은지
two sample: 2개 그룹의 평균이 유의미하게 다른지

ANOVA: 2개 이상 그룹의 평균의 차이가 있는지를 알아보는 가설 검정 방법

❓ 각 그룹을 t-test로 각각 검정하면 안되는 이유
이론상으로는 가능하지만 그 과정에서 에러 발생할 확률 있음 -> 그룹수가 늘어 날 수록 에러 커짐
-> 한꺼번에 비교하는 방법 필요

F-statistic: 그룹 간 차이가 있는지 확인 하는 지표(여러 표본 집단 비교하기 위한 지표)참고자료

F = { {Variance-between-group} \over {Variance-with-in-group} }

-> 표본 집단 간의 차이가 랜덤한 이유에 의한 것이라면 F-value는 1에 가까워야 함(같은 모분산을 다른 방법으로 추정한 것이기 때문, 즉, 같은 모집단에서 나온 각기 다른 샘플이라는 뜻)

F-value가 1보다 꽤 크다면, 샘플 간의 variablity가 샘플 내의 variablity를 이용해 추정한 variablity보다 더 크다는 것을 의미: 모든 표본 집단들이 하나의 모집단에서 나오지는 않았을 것이라는 것 시사

❓ F-value가 어느정도 되어야 크다고 할 수 있나
보통 통상적으로 상위 5%(3.35), 1%의 값

계산방법

using scipy

from scipy.stats import f_oneway

f_oneway(g1, g2, g3)

큰 수의 법칙 (Law of large numbers)

sample 데이터의 수가 많아질수록, sample의 통계치는 점점 모집단의 모수와 같아진다

모집단의 모수: 모집단의 기술통계량 (평균, 분산, 표준편차 etc)

중심극한정리 (Central Limit Theorem: CLT)

sample 데이터의 수가 많아질수록, sample의 평균은 정규분포에 근사한 형태로 나타난다

모집단을 100% 알 수 없기 때문에, 표본조사를 통해 모집단을 잘 추측하는 것이 중요
e.g. 샘플링 방법 4가지 -> 가설 검정 방법 선택 (t-test, chi2, anova etc)

❗️ sample 데이터 수가 많아지는 것의 의미
1) 샘플이 커지는 것, 2) 샘플링 횟수가 늘어나는 것

신뢰구간

신뢰구간 95%의 의미
100번 정도 반복 샘플링을 했을 떄, 95% 가량은 2*SEM 안에 모평균이 들어있다는 뜻

표본평균의 표준편차 = '표준오차(Standard Error of Mean; SEM'
-> 모집단에서 추출한 표본의 평균은 모평균으로부터 2*SEM 범위 안에 95%의 확률로 들어온다

예측하는 구간이 넓어질수록 맞을 확률(신뢰도)는 올라감
e.g. 99% 신뢰구간일 때가 95% 신뢰구간일 때보다 범위가 넓으므로, 맞을 확률도 올라감
= 귀무가설을 기각하기 어려워짐

from scipy.stats import t

# 표본의 크기
n = len(sample)
# 자유도
dof = n-1
# 평균의 평균
mean = np.mean(sample)
# 표본의 표준편차
sample_std = np.std(sample, ddof = 1)
# 표준 오차
std_err = sample_std / n ** 0.5 # sample_std / sqrt(n)

CI = t.interval(alpha=.95, dof, loc = mean, scale = std_err) # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html
print("95% 신뢰구간: ", CI)