[데이터 분석] Confidence Interval

Colacan·2022년 1월 27일
1

[데이터 분석]

목록 보기
5/9

CLT(중심극한정리)

  • 많은 통계학의 기본, 어떤 분포이든 표본들의 평균값은 정규분포를 따른다.

  • 정규분포를 따른다는 것의 의미
    1) 표본들이 어떤 분포를 따르는지 걱정할 필요가 사라짐
    2) t-test,anova등이 사용가능

  • 표본의 수가 30개 이상일시 정규분포를 따름 (경험의 법칙)

  • 중심극한정리가 잘 작동하기 위해서는 표본에서 평균값 계산이 가능해야함 (코쉬분포의 경우 표본의 평균이 없음)

  • sample이 많아질수록 sample의 평균은 정규분포에 근사한 형태로 나타남

  • 푸아송분포 : 주어진 구간동안 event가 얼마나 발생할지

  • sampling의 횟수도 중요하지만 sampling 개수도 중요하다 (큰 수의 법칙과 헷갈리지 말 것)

  • Point estimate vs Interval estimate
    1) 예측하는 구간이 넓어질수록 맞을 확률은 올라간다

  • 신뢰도
    1) 신뢰도가 95%일때 : 표본을 100번 뽑는다면 95번은 모집단의 평균이 포함된다.
    2) 식으로 표현한다면 : 샘플의 평균 +- ts/root(n) (t: t분포값, s: 표준편차, n:사이즈), ts/root(n)을 error 라고한다.

  • CI with scipy
    1) t.interval(0.95, dof(자유도), loc=mean(평균의 평균),scale = std_err(표준오차))

Confidence Interval(신뢰구간)

  • Bootstrap : 가설검정 이전에 진행하는 중복허용의 random sampling 방법
    1) Bootstrap으로 표본 추출
    2) 표본들의 평균 계산
    3) 1,2번과정을 반복 (10000회 이상)

  • 95% 신뢰구간 : 평균들의 95%를 차지하는 구간

  • 신뢰구간을 벗어나는 항목의 p값은 0.05이하

  • 신뢰구간이 겹칠 경우 평균이 서로 유의하게 다를 가능성 존재, 이경우에는 t-test를 해야한다.

ANOVA

  • 2개 이상의 그룹의 평균에 차이가 있는지 없는지 검정

Multiple Comparision

  • 만약 3개의 그룹에 대해서 3번의 t-test로 검정하려하면 error확률이 그만큼 늘어난다 1-(1-a)^3만큼 (약 15%)

  • 그룹수가 n이라면 n x a의 에러가 발생한다

Variation

  • 여러 그룹들이 하나의 분포에서 왔다는 가정

  • F-statistic : 하나의 분포에서 왔는지 확인하는 지표

  • F의 분자 : 그룹간의 분산

  • F의 분모 : 그룹내에서의 분산

  • F값이 높다는 것의 의미 : 다른 그룹끼리 분포가 다를 것이다

  • F는 지표에 영향을 받으므로 p-value로 변환 필요

Many Samples

  • 큰 수의 법칙 : sample의 수가 커질수록 통계치는 모집단의 모수와 같아진다. 보통 30개로 둔다.

  • 정규분포 랜덤 생성 : np.random.normal(평균,표준편차,개수)

  • method chaining : 메소드를 연달아서 사용하는 것 (알아둘 것)

profile
For DE, DA / There is no royal road to learning

0개의 댓글