본 글을 이화여자대학교 송종우 교수님의 러닝패킷: 통계의 기초 강의를 정리한 것입니다.
러닝패킷: 통계의 기초
1) 정규분포는 연속형 분포 가운데 가장 많이 쓰이는 확률분포이다.
2) 정규분포는 N(μ, σ^2)라고 많이 표현되며, 이는 모평균 와 표준편차의 σ의 모수로 특정지어진다.
N(μ, σ^2) 정규분포는 영어로 Normal Distribution이라고 하는데 N은 Normal을 의미한다.
두가지 모수를 가진다.
μ - 모평균
σ^2 - 모분산 (표준편차의 제곱은 분산)
σ 가 작은 모집단의 분포는 평균 주위에 가깝게 몰려있게 되고 (산포가 작다.)
σ 가 큰 모집단의 분포는 넓게 퍼져있는 형태를 취한다.
3 ) 표준 정규 분포 (Standard Normal Distribution)
μ = 0, 모평균이 0
σ = 1, 표준편차 및 분산이 1인 정규분포
1) 평균은 모두 같다. 2) 표준편차가 다르다.
표준편차가 작을 수록 좁다.
표준편차가 증가함에 따라 산포도가 커진다. 넓어진다.
평균이 다르지만, 표준편차가 같다.
다시 확인해보면
1) 모평균 - location parameter
평균이 어디인지에 따라 그래프가 어디에 위치하는지를 결정된다.
2) 표준편차 - scale parameter
표준편차에 따라 얼마나 그래프가 얼마나 퍼져있는지가 결정된다.
만약 정규분포를 따른다면 아래를 만족한다.
1) μ ± σ → 68%
평균에서 +- 시그마안으로 들어올 확률
2) μ ± 2σ → 95%
평균에서 +- 2 시그마안으로 들어올 확률
3) μ ± 3σ → 99.7%
평균에서 +- 3 시그마안으로 들어올 확률
정규분포는 1) 평균, 2) 분산이 주어지면 형태가 결정된다.
하지만, 평균과 분산의 조합은 무수히 많다.
어떤 확률은 계산하고 싶은 경우 하나의 통계표만 있어도 확률계산이 가능하다.
왜? 표준화를 할 수 있기 때문에
1) 표준화
N(m, s^2)을 따르는 정규분포를 N(0, 1)을 따르는 정규분포로 바꾼다.
테이블에 있는 값들은 모두 확률이다.
Z가 표준 정규분포를 따른다고 하면 다음과 같이 나타낸다.
Z ~ N(0, 1)
Z는 다음과 같이 계산한다. (표준화 방법)
Z = (x - m) / s
1) 어떤값에서 모평균을 빼고 , 2) 표준편차로 나눈다.
표준 정규 분포를 따르는 확률변수 Z가
-2.400 이하일 확률은 0.0082이다.
-2.406 이하일 확률은 0.0069이다.
예시
첫번째 그룹은 비타민만 먹는다. N (250, 20^2)
두번째 그룹은 비타민과 영양가가 풍부한 음식을 먹는다. N (266, 15^2)
240일을 유지 못하는 산모의 비율을 계산해보자.
Z = (240-250) / 20 = -0.5
0.3085 > 31%
Z = (240-266) / 15 = -1.73
0.0418 > 4%
비타민과 영양가가 풍부한 음식을 먹을경우 240일 이하의 임신가간을 가질 비율이 현저히 떨어진다.