가장 일반적으로 발견되는 양방향 대칭의 종 모양(사진 참고)으로 생긴 분포,
수집된 자료의 분포를 근사할 때 대부분 정규분포를 사용한다.
(중심 극한정리에 의해 독립적인 확률 변수들의 평균이 정규분포에 가까워지므로)
모수: μ(평균)과 σ^2(분산)
평균: 분포가 모이는 중심
분산: 평균을 중심으로 데이터들이 퍼진 정도
보통 N(μ, σ^2)로 표현한다.
여러 분포들을 정규분포로 근사할 수 있다!
이항분포의 pmf에서 n을 무한(극한)으로 보낼 경우 정규분포 근사로 만들 수 있다.
예시)
동전을 던졌을 때 앞이 나오는 경우 X=1 인 확률 변수 X의 경우
X의 시행횟수가 무한대로 늘어날 경우
X의 확률을 히스토그램으로 그리면 N(np, np(1-p))의 분포에 가까워지는 것을 알 수 있다.
이것을 드무아브르-라플라스 정리 라고한다.
동전을 1000번 던졌을때 앞면횟수가 500(평균)이 중심이 되는 것을 볼 수 있다.
서로 다른 parameter를 가진 집단들을 비교하기 위해 정규분포를 표준화한 분포
즉, 평균이 0이고 퓨준편차가 1인 분포로 표준화
표준 정규분포를 따르는 확률 변수는 z라고 한다.
표준화된 개별 데이터를 z-score 라고 부르며,
평균으로부터 표준편차의 z배정도 떨어져있다를 의미한다.
표준 정규분포를 따르는 확률 변수 z 값이
(-2,2)사이에 위치할 확률은 약 95% 이다.
P(Z<1.96) = 0.975 / 정규분포표에서 1.9와 0.06부분을 찾으면 된다.
P(Z>1.96) = 0.025 / Z가 큰 경우에는 1-1.96을 해주면 된다.
정규분포는 지금까지 배운 듯이 평균값 기준 양쪽 대칭이므로
P(Z<-1.96) = 0.025
따라서
P(-1.96<Z<1.96) = 1- P(Z>1.96) - P(Z<-1.96)
= 0.95
앞에서 표본 분산이 n이 아닌 n-1로 나누는 이유를 확인해 보자
불편추정량이란?
모집단의 모수 추정에 있어서 그것의 추정량의 기댓값이 모수와 같을 때 그 추정량을 가리켜 불편 추정량이라고 한다.
추정량 : 모수를 추정하기 위한 표본 통계량
(e.g. 표본평균(모평균을 추청하기 위한 표본 통계량),
표본분산(모분산을 추정하기 위한 표본 통계량))
불편향(편향하지 않다) : 표본 추정량의 기댓값이 모수와 같을 때 불편향하다고 함.
왜 표본분산은 n이 아닌 n-1로 나눠주는 걸까?
평균 μ와 분산 σ^2인 임의의 모집단에서 크기가 n인 표본 (X1, …, Xn)을 뽑았다고 했을때
표본 평균의 분포는 n → ∞일때(충분히 클때) N(μ, σ^2/n) 에 근사하고
Z의 분포는 N(0, 1^2)에 근사한다.
그림으로 [중심극한정리]를 설명해 보자면,
Bin(n,P) 라고 할 때 n의 갯수가 무한으로 늘어날 수 록 정규 분포와 근사해진다.
포아송 분포도 마찬가지이다.
2에 중심되는 것을 볼 수 있다.