대표적인 확률분포 유형 - 연속확률분포

Fine Tech Blog·2022년 11월 3일
0

연속확률분포로는 연속균등분포, 정규분포, 표준정규분포가 있다.

# 연속균등분포

연속균등분포(continuous uniform distribution)는 확률밀도가 일정한 분포이다. 확률변수 XX가 구간 [a, b]에서 연속균등분포를 따르면 XU[a,b]X \sim U[a,b]라 표기한다.

연속균등분포의 확률밀도함수, 기댓값, 분산
f(x)={1ba,axb0,otherwisef(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b \\ 0, & otherwise \end{cases}
E(X)=a+b2,Var(X)=(ba)212E(X)=\frac{a+b}{2}, Var(X) = \frac{(b-a)^2}{12}

증명은 생략한다.

# 정규분포

1. 정규분포의 특성

확률분포 중에서 가장 활용도가 높은 분포가 정규분포(normal distribution)이다. 실제로 많은 자연현상이나 사회현상이 정규분포를 따르고 있는 것으로 알려져 있다. 정규분포는 다음과 같은 특성을 지니고 있다.

  • 정규분포의 위치와 모양은 평균 μ\mu와 분산 σ2\sigma^2에 의해서만 결정된다. 이런 특성을 반영하여 확률변수 XX가 정규분포를 따르면 XN(μ,σ2)X \sim N(\mu, \sigma^2)라 표기한다. μ\muσ2\sigma^2 값에 따른 정규분포의 모양은 아래와 같다. 평균에서의 확률밀도가 가장 높고, 분산이 클수록 넓게 펴진 형태이다.
  • 정규분포는 종모양(beel shaped)이다.
  • 정규분포는 평균을 중심으로 대칭을 이루므로 비대칭도의 값은 0이다.
  • 평균, 중앙값, 최빈값은 동일하다.
  • 정규분포를 따르는 확률변수가 취할 수 있는 값은 -\infin++\infin 사이이다.
  • 확률변수 XXμ\mu를 중심으로 σ\sigma의 1배, 2배, 3배에 해당하는 구간의 확률은 다음과 같다.
  • 두 확률변수 XXYY가 정규분포를 따르면, 선형결합(linear combination)인 aX+bYaX+bY도 정규분포를 따른다.

2. 정규분포의 확률(밀도)함수와 구간확률 구하기

확률변수 XX가 정규분포를 따를 때, 확률변수 XX에 대한 확률밀도함수는 다음과 같다.

정규분포의 확률밀도함수
f(x)=12πσ2e12(xμσ)2f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}

확률변수 XX가 정규분포를 따를 때 XX가 일정구간 [a,b][a, b]에 속할 확률은 다음과 같은 복잡한 적분계산을 해야 하는데, 사실상 손으로 구하는 것은 불가능하다.

P(aXb)=ab12πσ2e12(xμσ)2dxP(a \le X \le b) = \int_{a}^{b}\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2}(\frac{x-\mu}{\sigma})^2}dx

정규분포 [a,b][a, b] 에서의 구간확률은 엑셀 함수를 이용하여 구한다.
엑셀의 함수 NORM.DIST(x,μ,σx, \mu, \sigma, True) 는 P(Xx)P(X \le x)를 의미한다.
따라서, P(aXb)P(a \le X \le b)는 다음과 같이 구할 수 있다.

P(aXb)=P(Xb)P(Xa)=NORM.DIST(b,μ,σ,True)NORM.DIST(a,μ,σ,True)\begin{aligned} P(a \le X \le b) & = P(X \le b) - P(X \le a) \\ & = \operatorname{NORM.DIST}(b, \mu, \sigma, \operatorname{True}) - \operatorname{NORM.DIST}(a, \mu, \sigma, \operatorname{True}) \end{aligned}

# 표준정규분포

1. 표준정규분포의 개념

정규분포의 구간확률은 프로그램을 이용하지 않는 한 구하기 매우 어렵다. 프로그램없이 계산할 수 있는 방법은 표준정규분포를 이용하는 것이다. 표준정규분포란 정규분포를 표준화한 분포이다.

표준정규분포(standard normal distribution)는 평균과 분산이 각각 0과 1인 정규분포를 말한다. 정규분포의 확률밀도함수에서 μ\muσ2\sigma^2을 각각 0과 1로 대체하면 표준정규분포의 확률밀도함수를 얻을 수 있다.

표준정규분포의 확률밀도함수
f(z)=12πe12z2\begin{aligned} f(z) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2} \end{aligned}

표준정규확률변수로의 변환
XN(μ,σ2)X \sim N(\mu, \sigma^2) 이라면, Z=XμσZ=\frac{X-\mu}{\sigma}는 표준정규분포를 따른다. 즉, ZN(0,1)Z \sim N(0, 1)

2. 표준정규분포의 구간확률과 위치

확률변수 XX가 정규분포를 따를 때 XX가 일정구간 [a,b][a, b]에 속할 확률은 엑셀함수를 이용하거나 표준정규분포 표를 이용한다. 다음은 P(aXb)P(a \le X \le b) 를 구하는 예이다.

P(aXb)=P(Xb)P(Xa)=NORM.S.DIST(b,True)NORM.S.DIST(a,True)\begin{aligned} P(a \le X \le b) & = P(X \le b) - P(X \le a) \\ & = \operatorname{NORM.S.DIST}(b, \operatorname{True}) - \operatorname{NORM.S.DIST}(a, \operatorname{True}) \end{aligned}

profile
Data Engineer @ SKT

0개의 댓글