정규분포

Kiwoong Park·2022년 2월 8일
0

정규분포

종 모양의 정규분포(normal distribution)은 전통적인 통계의 상징이라고 할 수 있다. 표본통계량 분포가 보통 어떤 일정한 모양이 있다는 사실은 이 분포를 근사화하는 수학 공식을 개발하는 데 강력한 도구가 되었다.

정규분포에서 데이터의 68%는 평균의 표준편차(μ±σ\mu \pm \sigma) 내에 속하며 95%는 표준편차 두 배수 내(μ±2σ\mu \pm 2\sigma) 에 있다.

대부분의 데이터가 정규분포를 따르기 때문에, 즉 이게 정상이기 때문에 정상적인(normal) 분포라고 부르는 것은 아니다. normal 이전에는 가우스 분포라고 불렸다.
The name 'normal' was attributed later due to great statistician Karl E. Pearson, who said,
“Many years ago [in 1893] I called the Laplace-Gaussian curve the normal curve, which name, while it avoids the international question of priority, has the disadvantage of leading people to believe that all other distributions of frequency are in one sense or another abnormal.”
라는 Pearson의 말에서 알 수 있듯이 정상분포라고 불러서 다른 분포를 비정상분포로 해석되게 한다는 단점을 지적하고 있다.
즉, 정상이라기 보단 기준(standard)가 되는 뜻에서 normal distribution이라고 의미를 이해하는 것이 더 정확하겠다.

실제로 전형적인 데이터과학 프로젝트에서 사용되는 대부분의 변수들, 실제 대부분의 원시 데이터는 전체적으로 정규분포를 따르지 않는다. 오차나 표본 통계량의 분포를 볼 때 정규분포는 적절하고 유용하지만, 정규분포가 일반적으로 원시 데이터 분포의 특징을 나타내지는 않는다. 때로는 분포가 소득 데이터와 같이 비스듬하게 기울어져 있거나 이항 데이터같이 이산적일 수 있다.
하지만, 일반적으로 정규분포 가정은 경험적 확률분포나 부트스트랩 분포를 구할 수 없는 경우 사용되는 최후의 수단이다.

profile
You matter, never give up

0개의 댓글