정규분포

YongUk·2022년 9월 24일
0

Statistics

목록 보기
8/15

연속확률분포


  • 주어진 구간에서 확률이 어떻게 분포하는지에 대한 함수를 계산
  • 특정 x값이 가질수 있는 확률은 0임
  • 확률밀도함수 구하는 방법은 x축과 그래프 사이의 넓이를 구하면되고 전체 넓이는 1이다.

정규분포


  • XX~N(μ,σ2)N(\mu,\sigma^2)
  • f(x)=12πσ2e(xμ)22σ2f(x) = \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}}

표준정규분포


  • ZZ~N(0,1)N(0,1)
  • 평균 : 0 , 분산 : 1을 따르는 정규분포 N(0,1)N(0,1)

정규분포 성질


  • XX~N(μ,σ2)N(\mu,\sigma^2)에서 Xμσ\frac{X-\mu}{\sigma}표준정규분포를 따름
  • 정규분포를 따르는 확률변수는 선형변환 후에도 정규분포를 따름

이항분포의 정규근사


  • XX~B(n,p)B(n,p)에서 n이 크고 p가 0이나 1에 가까운경우 포아송근사를 사용한다고 앞서 나왔다
  • n이 크고 p가 0,1보다 0.5에 가까울 경우 정규근사를 이용한다. 즉 정규분포에 가까워진다.
  • 이때 평균은 np 분산은 npq로 계산한다.

    중심극한정리(Central Limit Theorem)
    모집단에서 표본크기가 n(n30)n(n\geq30)이면 표본 평균은 정규분포에 근접한다. 여기서 중요한점은 n개를 뽑는게 아니라 표본크기를 n으로 하여 N번 뽑는다는 것이다. 즉 각 시행에서 한번에 많은 표본을 뽑을수록 그 확률분포는 정규분포를 따른다. 또한 중요한점은 모집단분포와 정규분포를 헷갈리면 안된다는 것이다. 모집단분포는 항상 종모양이 아니다. 좌우측 편향이나 양봉형일수도 있지만 표본추출을 하게되면 똑같이 정규분포로 근사한다. 이를 통해 모집단이 어떠한 분포를 가지더라도 중심극한정리를 통한 표본의 분포의 정규성을 이용하여 검정할 수 있다

연속성 수정


  • 이항분포에서 정규분포로 근사할때 일반적으로 이항분포는 한점에 확률이 있는 반면 정규분포는 그렇지않다. 그렇기에 그냥 무턱대로 변환하게되면 값이 많이 바뀔수 있고 오차를 수정해주어야한다.

  • 한 정수 x를 기준으로 P(X=x)=P(x12Xx+12)P(X=x)=P(x-\frac{1}{2} \leq X\leq x+ \frac{1}{2})를 해주어 값을 변환해야한다.

  • np(1p)np(1-p)의 값이 충분히 커서 정규분포에 근사한경우 굳이 연속성 수정을 하지않더라도 큰 차이가 없기에 사용하지 않아도된다.

정규분포가정의 조사


  • 자료를 분석할때 모집단이 정규분포를 따른다고 가정하는 경우가 많지만 실제로 따르지 않을때도 있다.
  • 그럼 어떻게 정규분포를 만족하는지 아닌지를 알수있을까
  1. 자료에 대한 히스토그램을 그려서 확인 (주관적인 판단이 들어가기에 그리는 방법에따라 해석이 달라질 수 있음)
  2. XX~N(μ,σ2)N(\mu,\sigma^2)일때 (μs,μ+s),(μ2s,μ+2s),(μ3s,μ+3s)(\mu-s,\mu+s),(\mu-2s,\mu+2s),(\mu-3s,\mu+3s)가 각각 (0.6827,0.9545,0.9973)인지 확인한다
  3. 정규확률그림을 그린다

정규확률그림


  • 자료와 정규분포의 백분위수를 그림으로 그려서 비교한다

    n개의 자료를 X1X_1부터 XnX_n까지 크기순으로 나열하고 표준정규분포를 n+1등분하는 점 a1a_1부터 ana_n까지 있다라고 가정한다면 자료가 정규분포를 따른다면 모든 k=nk=n이하의 자연수에 대하여 XkX_kaka_k는 모두 비슷한 값이 나와야한다.

  • 각각 대응하는 점들을 좌표평면상에 나타내고 이들이 직선형을 이룬다면 정규성의 띈다고 말할 수 있다.

  • 아래 그림을 보게되면 양극단이 휘어 직선을 만들지 못하는 것 처럼 보인다. 하지만 여기서 정규점수 즉 z점수를 통해 원자료를 표준정규분포 형태로 변환한다면

  • 아래와 같은 그림이 나올 것이고 거의 직선에 가까운 것을 확인할 수 있다. 따라서 위 자료는 정규성을 만족한다고 볼수있다.

자료의 변환


  • 원자료가 정규분포를 따르지 않는다면 정규분포를 따르게 하여 복잡한 계산을 쉽게할 수 있다.
  • 예시로 우측편향된 그래프일 경우 각 자료 XXX2,X3X^2, X^3등으로 만들어 큰값들을 더 크게 만든다면 가운데로 분포하도록 바꿀 수 있고 좌측편향된 그래프일 경우 loglog나 제곱근형태를 사용하여 바꾸어 줄 수 있다.

0개의 댓글