분포 정리하기
- 데이터 수가 엄청 많아지면 정규분포에 수렴 (중심극한정리)
- 데이터 수가 많으면 바로 정규분포로 가정
- 데이터가 적을 경우 각 상황에 맞는 분포를 선택
- 특히, long tail distribution은 데이터가 많아도 정규분포가 되지 않는 분포이다
분포를 어떻게 고르면 될까>
데이터 수가 충분하다 -> (무조건) 정규분포
데이터 수가 작다 -> 스튜던트 t 분포
일부 데이터가 전체적으로 큰 영향을 미친다 -> 롱 테일 분포 (파레트 분포)
범주형 데이터의 독립성 검정이나 적합도 검정 -> 카이제곱 분포
결과가 두 개(성공 or 실패)만 나오는 상황 -> 이항 분포