4. 정규분포

skyepodium·2020년 2월 19일
0

통계의 기초

목록 보기
4/5

본 글을 이화여자대학교 송종우 교수님의 러닝패킷: 통계의 기초 강의를 정리한 것입니다.
러닝패킷: 통계의 기초

1. 확률과 임의성

1) 정규분포는 연속형 분포 가운데 가장 많이 쓰이는 확률분포이다.

2) 정규분포는 N(μ, σ^2)라고 많이 표현되며, 이는 모평균 와 표준편차의 σ의 모수로 특정지어진다.

  • 뮤와 시그마를 알면 어떤 분포인지 확 정확하게 알 수 있다는 의미
  • μ는 분포의 가운데이며 분포의 위치를 나타낸다.(location pararmeter)
  • σ는 분포의 퍼짐 정도를 나타낸다. (scale parameter)
  • μ 에 대칭인 종 모양의 분포로써 μ ± σ 에서 볼록성(볼록 / 오목)이 바뀜

N(μ, σ^2) 정규분포는 영어로 Normal Distribution이라고 하는데 N은 Normal을 의미한다.

두가지 모수를 가진다.

μ - 모평균

σ^2 - 모분산 (표준편차의 제곱은 분산)

σ 가 작은 모집단의 분포는 평균 주위에 가깝게 몰려있게 되고 (산포가 작다.)

σ 가 큰 모집단의 분포는 넓게 퍼져있는 형태를 취한다.

3 ) 표준 정규 분포 (Standard Normal Distribution)

μ = 0, 모평균이 0

σ = 1, 표준편차 및 분산이 1인 정규분포

2. 정규분포의 형태

1) 평균은 모두 같다. 2) 표준편차가 다르다.

표준편차가 작을 수록 좁다.

표준편차가 증가함에 따라 산포도가 커진다. 넓어진다.

평균이 다르지만, 표준편차가 같다.

다시 확인해보면

1) 모평균 - location parameter

평균이 어디인지에 따라 그래프가 어디에 위치하는지를 결정된다.

2) 표준편차 - scale parameter

표준편차에 따라 얼마나 그래프가 얼마나 퍼져있는지가 결정된다.

3. 68-95-99.7 법칙

만약 정규분포를 따른다면 아래를 만족한다.

1) μ ± σ → 68%

평균에서 +- 시그마안으로 들어올 확률

2) μ ± 2σ → 95%

평균에서 +- 2 시그마안으로 들어올 확률

3) μ ± 3σ → 99.7%

평균에서 +- 3 시그마안으로 들어올 확률

4. 정규분포의 표준화

정규분포는 1) 평균, 2) 분산이 주어지면 형태가 결정된다.

하지만, 평균과 분산의 조합은 무수히 많다.

어떤 확률은 계산하고 싶은 경우 하나의 통계표만 있어도 확률계산이 가능하다.

왜? 표준화를 할 수 있기 때문에

1) 표준화

N(m, s^2)을 따르는 정규분포를 N(0, 1)을 따르는 정규분포로 바꾼다.

테이블에 있는 값들은 모두 확률이다.

Z가 표준 정규분포를 따른다고 하면 다음과 같이 나타낸다.

Z ~ N(0, 1)

Z는 다음과 같이 계산한다. (표준화 방법)

Z = (x - m) / s

1) 어떤값에서 모평균을 빼고 , 2) 표준편차로 나눈다.

표준 정규 분포를 따르는 확률변수 Z가

-2.400 이하일 확률은 0.0082이다.

-2.406 이하일 확률은 0.0069이다.

예시

첫번째 그룹은 비타민만 먹는다. N (250, 20^2)

두번째 그룹은 비타민과 영양가가 풍부한 음식을 먹는다. N (266, 15^2)

240일을 유지 못하는 산모의 비율을 계산해보자.

Z = (240-250) / 20 = -0.5

0.3085 > 31%

Z = (240-266) / 15 = -1.73

0.0418 > 4%

비타민과 영양가가 풍부한 음식을 먹을경우 240일 이하의 임신가간을 가질 비율이 현저히 떨어진다.

profile
callmeskye

0개의 댓글