"왜 데이터가 적어도 30개 이상 있어야 할까?"에 대해서 정규분포와 중심극한정리(Central Limit Theorem, CLT)는 실제로 연관이 있습니다.
중심극한정리는 다음과 같은 내용입니다:
어떤 분포를 가진 모수(모집단)든지, 표본을 반복해서 뽑아 평균을 계산하면, 그 평균값의 분포는 점점 정규분포에 가까워진다.
(단, 표본 개수가 충분히 크면.)
즉, 모집단이 정규분포가 아니어도 괜찮고, 표본 평균의 분포가 정규분포에 가까워진다는 게 핵심이에요.
질문 | 답변 |
---|---|
30개 이상이 필요한 이유? | 중심극한정리 덕분에 평균이 정규분포에 가까워지기 때문 (통계적으로 안정적) |
딥러닝에서 꼭 30개 이상이어야 함? | 꼭 그렇진 않지만, BN 같은 기법에서는 batch size가 너무 작으면 통계가 불안정해서 성능이 떨어질 수 있음 |
중심극한정리와 관련 있음? | 네, 관련 깊어요. 특히 BN 같은 평균/분산 기반 정규화에 중요함 |