[035] 기초통계 - 확률분포 / 기초②

이연희·2023년 10월 7일
0

Chapter
📗 4. 확률분포
📝 (1) 이산형 확률 분포
📝 (2) 연속형 확률 분포

📗 4. 확률분포

확률분포(probability distribution) : 확률 변수 X가 취할 수 있는 모든 값과 그 값이 나타날 확률을 표현한 함수

📝 (1) 이산형 확률 분포

✔ 이산형 균등분포

확률 변수 X가 유한개이며, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포이다.

  • fx(x)=P(X=x)=1Nf_{x}(x) = P(X=x) = \frac{1}{N}, (where x=1,2,...,Nx=1,2, ... ,N)

  • XX ~ U(a,b)U(a,b) 라고 표현된다.

  • 기대값 E(X)=xf(x)=1nx=1nn(n+1)2=(n+1)2E(X)= \sum xf(x) = \frac{1}{n}\sum x = \frac{1}{n}*\frac{n(n+1)}{2} = \frac{(n+1)}{2}

  • 분산: var(x)=E(x2)(E(x))2=(n+1)(2n+1)6(n+12)2=(n+1)(n1)12=n2112var(x) = E(x^2) - (E(x))^2 = \frac{(n+1)(2n+1)}{6}-(\frac{n+1}{2})^2 = \frac{(n+1)(n-1)}{12}=\frac{n^2-1}{12}

✔ 베르누이 분포(Bernoulli distribution)

먼저 베르누이 시행(Bernoulli trial)에 대해 알 필요가 있다. 각 시행의 결과가 성공, 실패 두 가기만 존재하는 시행을 말하는데 이때, 성공이 1, 실패가 0의 값을 가지는 확률 변수 X의 분포를 베르누이 분포(Bernoulli distribution)이라고 한다.

  • X={1,성공0,실패X=\left\{\begin{matrix}1, 성공 \\0, 실패 \end{matrix}\right.
  • X~ Bernoulli(p)라고 표현함
  • 함수식은 다음과 같다. fx(x)=px(1p)1x,(x=0,1)f_{x}(x)=p^{x}(1-p)^{1-x}, (x=0,1)
  • 기댓값 E(x)=pE(x) = p
  • 분산 var(x)=p(1p)var(x) = p(1-p)

✔ 이항분포(Binomial distribution)

연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포

  • fx(x)=P(X=x)=(nx)Px(1p)(nx)=n!x!(nx)!,(x=0,1,...,n)f_{x}(x)=P(X=x) = \binom{n}{x}P^{x}(1-p)^{(n-x)} = \frac{n!}{x!(n-x)!}, (x=0,1,...,n)
  • X ~ B(n,p)
  • 기댓값 E(X)=r=0nrnCrprqnr,(q=1p)=npE(X)=\sum_{r=0}^{n}r·{n}C_{r}·p^{r}·q^{n-r}, (q=1-p)= np
  • 분산 var(X)=E(X2)(E[X])2=n(n1)p2+np(np)2=np(1p)=npqvar(X)=E(X^2)-(E[X])^2 = n(n-1)p^2+np - (np)^2 = np(1-p) = npq

✔ 포아송 분포(Poission distribution)

어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포 (ex. 야구장에서 파울볼을 잡을 횟수, 버스 정류장에서 특정 버스가 5분 이내에 도착한 횟수)

  • 조건
    ① 어떤 단위구간(ex.1일,30분) 동안 이를 더 짧은 작은 단위의 구간으로 나눌 수 있고, 이런 더 짧은 단위 구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정하다.
    ② 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
    ③ 어떤 단위구간의 사건 발생은 다른 단위구간의 발생으로부터 독립적임
    ④ 특정 구간에서의 사건 발생 확률은 그 구간의 크기에 비례함
    ⑤ 포아송 분포 확률 변수의 기댓값과 분산은 모두 λ\lambda

  • fx(x)=P(X=x)=eλλxx!,(x=0,1,2,...)f_{x}(x)=P(X=x)=\frac{e^{-\lambda}\lambda^{x}}{x!}, (x=0,1,2,...)

  • XX ~ poisson(λ)poisson(\lambda)

  • 이항분포의 포아송 근사
    확률 변수 X가 이항분포(XX~B(n,p)B(n,p))를 따른다고 하자. 이때, n이 충분이 크고, p이 아주 작을 때, X의 분포는 평균이 λ=np\lambda=np인 포아송 분포로 근사시킬 수 있다. 보통 n이 클 때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 한다. XX~poisson(λ=np)poisson(\lambda=np)

✔ 기하 분포(geometric distribution)

어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포.
이때 각 시도는 베르누이 시행을 따른다.

  • fx(x)=P(X=x)=(1p)x1p,(x=1,2,...)f_{x}(x)=P(X=x)= (1-p)^{x-1}p, (x=1,2,...)
  • X ~ Geometric(p)
  • 기댓값, E(X)=1pE(X)=\frac{1}{p}
  • 분산, var(X)=1pp2var(X) = \frac{1-p}{p^2}

✔ 음이항 분포(negative binomial distribution)

어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 발생한 성공 횟수 X의 확률 분포

  • fx(x)=P(X=x)=(x+r1x)px(1p)r,(x=1,2,...)f_{x}(x)=P(X=x)= \binom{x+r-1}{x}p^{x}(1-p)^{r}, (x=1,2,...)
  • X ~ NB(r,p)
  • 기댓값 E(X)=r1ppE(X)=r\frac{1-p}{p}
  • 분산 var(X)=r1pp2var(X)=r\frac{1-p}{p^2}

.
.

📝 (2) 연속형 확률 분포

연속형 확률 분포를 몇 가지 살펴보기 전에 확률밀도함수와 누적분포함수에 대해 알아야할 필요가 있다.

확률 밀도 함수(probability density function)

연속형 확률 변수 X에 대해서 함수 f(x)f(x)가 아래의 조건을 만족하면 확률밀도함수라고 한다.

  • 조건
    ① 모든 X에 대해서 f(X)0f(X)\geq 0
    P(x(,))=f(X)dx=1P(x\in (-\infty, \infty ))= \int_{-\infty}^{\infty}f(X)dx=1
    P(aXb)=abf(x)dxP(a\leq X \leq b)=\int_{a}^{b}f(x)dx

  • 확률 밀도 함수의 성질
    P(X=a)=P(aXa)=aaf(x)dx=0P(X=a) = P(a\leq X \leq a)=\int_{a}^{a}f(x)dx=0
    P(aXb)=P(aX<b)=P(a<Xb)=P(a<X<b)P(a\leq X \leq b) = P(a\leq X < b) = P(a < X \leq b) = P(a < X <b)

  • 확률밀도함수의 평균과 분산
    E(X)=xf(X)dxE(X)=\int_{-\infty}^{\infty}xf(X)dx
    var(X)=E(Xμ)2=(Xμ)2f(X)dxvar(X) = E(X-\mu)^2=\int_{-\infty}^{\infty}(X-\mu)^2f(X)dx

누적분포함수(cumulative density function)

확률밀도함수를 적분한다.

  • F(x)=P[Xx]=xf(x)dxF(x) = P[X \leq x] = \int_{-\infty}^{x}f(x)dx
  • ddxF(x)=f(x)\frac{d}{dx}F(x)=f(x)
  • 누적부포함수의 성질
    0F(x)10 \leq F(x) \leq 1
    ② 만약 ba,F(b)F(a)b \geq a, F(b) \geq F(a)
    F(b)F(a)=P[aXb]F(b) - F(a) = P[a \leq X \leq b]

.

✔ 균일분포(uniform distributuion)

확률 변수 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 가짐

  • f(x)={1ba,(axb)0,oterwisef(x) = \left\{\begin{matrix} \frac{1}{b-a}, (a \leq x \leq b) \\ 0, oterwise \end{matrix}\right.

  • F(x)={0,(xa)1ba,(axb)1,(xb)F(x) = \left\{\begin{matrix} 0, (x\leq a) \\ \frac{1}{b-a}, (a \leq x \leq b) \\ 1, (x \geq b) \end{matrix}\right.

  • 균일분포의 평균, 분산
    E[X]=b+a2E[X] = \frac{b+a}{2}
    var(X)=(ba)212var(X) = \frac{(b-a)^2}{12}

✔ 정규분포(normal distribution)

가우스 분포라고도 하며, 확률 밀도 함수는 확률 변수 X가 평균이 μ\mu이고, 분산이 σ2\sigma^2인 정규분포를 따를 때 아래와 같다.

  • f(x)=12πσe12σ2(xμ)2,(<x<,<μ<,σ2>0)f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}, (-\infty < x < \infty, -\infty < \mu < \infty, \sigma^2 > 0)

  • XX ~ N(μ,σ2)N(\mu, \sigma^2)

  • 평균과 분산
    E(X)=xf(x)dx=x12πσe12σ2(xμ)2dx=μE(X) = \int xf(x)dx = \int x\frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2}dx=\mu
    var(X)=σ2var(X) = \sigma^2

  • 정규분포 모양 비교
    (출처 - 위키백과)

  • 표준 정규 분포(standard normal distribution)
    확률 변수 X가 N(μ,σ2)N(\mu, \sigma^2) 정규 분포를 따르고, 확률 변수 z=xμσz=\frac{x-\mu}{\sigma}라고 할 때 확률변수 zz ~ N(0,1)N(0,1)를 따른다.
    f(x)=12πσe12σ2(xμ)2f(x) = \frac{1}{\sqrt{2\pi\sigma}}e^{-\frac{1}{2\sigma^2}(x-\mu)^2} 이므로 μ=0,σ2=1\mu=0, \sigma^2=1을 대입한다.
    φ(Z)=12πe12z2\varphi(Z) = \frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}z^2}
    φ(Z)=P[Zz]\varphi(Z) =P[Z \leq z]

  • 정규분포의 성질
    XX ~ N(μ,σ2)N(\mu, \sigma^2)일 때, 임의의 상수 a,b에 대하여 aX+b ~ N(aμ+b,a2σ2)N(a\mu+b, a^2\sigma^2)
    XX ~ N(μ1,σ12)N(\mu_{1}, \sigma_{1}^2), YY ~ N(μ2,σ22)N(\mu_{2}, \sigma_{2}^2)이고, X와 Y가 독립일 때 aX+bY ~ N(aμ1+bμ2,a2σ12+b2σ22)N(a\mu_{1}+b\mu_{2}, a^2\sigma_{1}^2+b^2\sigma_{2}^2)

  • 이항분포의 정규 근사
    XX ~ B(n,p)B(n,p)일 때, 확률 변수 X는 n이 충분히 크면 근사적으로 정규분포 XX ~ N(np,np(1p))N(np, np(1-p))를 따른다.

✔ 지수분포(exponential distribution)

단위 시간당 발생할 확률 λ\lambda인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 X는 지수 분포이다. (ex. 첫 번째 버스가 도착할 때까지의 대기 시간 분포)

  • 지수분포의 pdf
    f(x)=λeλx,(x0)f(x) = \lambda e^{-\lambda x}, (x \geq 0)
    XX ~ Exp(λ)Exp(\lambda)
  • 지수분포의 cdf
    F(x)=1eλx,(x0)F(x) = 1 - e^{-\lambda x}, (x \geq 0)
  • 평균과 분산
    E[X]=1λE[X] = \frac{1}{\lambda}
    var[X]=1λ2var[X] = \frac{1}{\lambda^2}

.

profile
안녕하세요, 데이터 공부를 하고 있습니다.

0개의 댓글