많은 통계학의 기본, 어떤 분포이든 표본들의 평균값은 정규분포를 따른다.
정규분포를 따른다는 것의 의미
1) 표본들이 어떤 분포를 따르는지 걱정할 필요가 사라짐
2) t-test,anova등이 사용가능
표본의 수가 30개 이상일시 정규분포를 따름 (경험의 법칙)
중심극한정리가 잘 작동하기 위해서는 표본에서 평균값 계산이 가능해야함 (코쉬분포의 경우 표본의 평균이 없음)
sample이 많아질수록 sample의 평균은 정규분포에 근사한 형태로 나타남
푸아송분포 : 주어진 구간동안 event가 얼마나 발생할지
sampling의 횟수도 중요하지만 sampling 개수도 중요하다 (큰 수의 법칙과 헷갈리지 말 것)
Point estimate vs Interval estimate
1) 예측하는 구간이 넓어질수록 맞을 확률은 올라간다
신뢰도
1) 신뢰도가 95%일때 : 표본을 100번 뽑는다면 95번은 모집단의 평균이 포함된다.
2) 식으로 표현한다면 : 샘플의 평균 +- ts/root(n) (t: t분포값, s: 표준편차, n:사이즈), ts/root(n)을 error 라고한다.
CI with scipy
1) t.interval(0.95, dof(자유도), loc=mean(평균의 평균),scale = std_err(표준오차))
Bootstrap : 가설검정 이전에 진행하는 중복허용의 random sampling 방법
1) Bootstrap으로 표본 추출
2) 표본들의 평균 계산
3) 1,2번과정을 반복 (10000회 이상)
95% 신뢰구간 : 평균들의 95%를 차지하는 구간
신뢰구간을 벗어나는 항목의 p값은 0.05이하
신뢰구간이 겹칠 경우 평균이 서로 유의하게 다를 가능성 존재, 이경우에는 t-test를 해야한다.
만약 3개의 그룹에 대해서 3번의 t-test로 검정하려하면 error확률이 그만큼 늘어난다 1-(1-a)^3만큼 (약 15%)
그룹수가 n이라면 n x a의 에러가 발생한다
여러 그룹들이 하나의 분포에서 왔다는 가정
F-statistic : 하나의 분포에서 왔는지 확인하는 지표
F의 분자 : 그룹간의 분산
F의 분모 : 그룹내에서의 분산
F값이 높다는 것의 의미 : 다른 그룹끼리 분포가 다를 것이다
F는 지표에 영향을 받으므로 p-value로 변환 필요
큰 수의 법칙 : sample의 수가 커질수록 통계치는 모집단의 모수와 같아진다. 보통 30개로 둔다.
정규분포 랜덤 생성 : np.random.normal(평균,표준편차,개수)
method chaining : 메소드를 연달아서 사용하는 것 (알아둘 것)