[데이터 분석] Confidence Interval

Colacan·2022년 1월 27일

[데이터 분석]

목록 보기

5/9

많은 통계학의 기본, 어떤 분포이든 표본들의 평균값은 정규분포를 따른다.
정규분포를 따른다는 것의 의미
1) 표본들이 어떤 분포를 따르는지 걱정할 필요가 사라짐
2) t-test,anova등이 사용가능
표본의 수가 30개 이상일시 정규분포를 따름 (경험의 법칙)
중심극한정리가 잘 작동하기 위해서는 표본에서 평균값 계산이 가능해야함 (코쉬분포의 경우 표본의 평균이 없음)
sample이 많아질수록 sample의 평균은 정규분포에 근사한 형태로 나타남
푸아송분포 : 주어진 구간동안 event가 얼마나 발생할지
sampling의 횟수도 중요하지만 sampling 개수도 중요하다 (큰 수의 법칙과 헷갈리지 말 것)
Point estimate vs Interval estimate
1) 예측하는 구간이 넓어질수록 맞을 확률은 올라간다
신뢰도
1) 신뢰도가 95%일때 : 표본을 100번 뽑는다면 95번은 모집단의 평균이 포함된다.
2) 식으로 표현한다면 : 샘플의 평균 +- ts/root(n) (t: t분포값, s: 표준편차, n:사이즈), ts/root(n)을 error 라고한다.
CI with scipy
1) t.interval(0.95, dof(자유도), loc=mean(평균의 평균),scale = std_err(표준오차))

Bootstrap : 가설검정 이전에 진행하는 중복허용의 random sampling 방법
1) Bootstrap으로 표본 추출
2) 표본들의 평균 계산
3) 1,2번과정을 반복 (10000회 이상)
95% 신뢰구간 : 평균들의 95%를 차지하는 구간
신뢰구간을 벗어나는 항목의 p값은 0.05이하
신뢰구간이 겹칠 경우 평균이 서로 유의하게 다를 가능성 존재, 이경우에는 t-test를 해야한다.