중심극한정리(Central Limit Theorem)
모집단에서 표본크기가 이면 표본 평균은 정규분포에 근접한다. 여기서 중요한점은 n개를 뽑는게 아니라 표본크기를 n으로 하여 N번 뽑는다는 것이다. 즉 각 시행에서 한번에 많은 표본을 뽑을수록 그 확률분포는 정규분포를 따른다. 또한 중요한점은 모집단분포와 정규분포를 헷갈리면 안된다는 것이다. 모집단분포는 항상 종모양이 아니다. 좌우측 편향이나 양봉형일수도 있지만 표본추출을 하게되면 똑같이 정규분포로 근사한다. 이를 통해 모집단이 어떠한 분포를 가지더라도 중심극한정리를 통한 표본의 분포의 정규성을 이용하여 검정할 수 있다
이항분포에서 정규분포로 근사할때 일반적으로 이항분포는 한점에 확률이 있는 반면 정규분포는 그렇지않다. 그렇기에 그냥 무턱대로 변환하게되면 값이 많이 바뀔수 있고 오차를 수정해주어야한다.
한 정수 x를 기준으로 를 해주어 값을 변환해야한다.
단 의 값이 충분히 커서 정규분포에 근사한경우 굳이 연속성 수정을 하지않더라도 큰 차이가 없기에 사용하지 않아도된다.
자료와 정규분포의 백분위수를 그림으로 그려서 비교한다
n개의 자료를 부터 까지 크기순으로 나열하고 표준정규분포를 n+1등분하는 점 부터 까지 있다라고 가정한다면 자료가 정규분포를 따른다면 모든 이하의 자연수에 대하여 와 는 모두 비슷한 값이 나와야한다.
각각 대응하는 점들을 좌표평면상에 나타내고 이들이 직선형을 이룬다면 정규성의 띈다고 말할 수 있다.
아래 그림을 보게되면 양극단이 휘어 직선을 만들지 못하는 것 처럼 보인다. 하지만 여기서 정규점수 즉 z점수를 통해 원자료를 표준정규분포 형태로 변환한다면