확률 분포

JERRY·2025년 3월 16일

Statistics

목록 보기
3/19
post-thumbnail

1. 이산형 확률 분포

확률 분포(probability distribution)

확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수

(1) 이산형 균등 분포(discrete uniform distribution)

  • 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등 분포라고 함

  • fx(x)=P(X=x)=1N, x=1,2,...,Nf_x(x)=P(X=x)=\frac{1}{N},\ x=1,2,...,N

    XU(a,b)X \sim U(a, b)

  • E[X]=a+b2E[X] = \frac{a + b}{2}

  • Var(X)=(ba+1)2112\text{Var}(X) = \frac{(b - a + 1)^2 - 1}{12}

(2) 베르누이 분포(Bernoulli distribution)

  • 베르누이 시행(Bernoulli trial): 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행

  • 베르누이 시행에서 성공이 ‘1’, 실패가 ‘0’의 값을 갖을 때 확률 변수 X의 분포를 베르누이 분포라고 하며 다음과 같이 정의함

  • fx(x)=px(1p)1x,x=0,1f_x(x)=p^x(1-p)^{1-x},x=0,1

    X={1 성공2 실패XBernoulli(p)X = \left\{\begin{array}{l}1\ \text{성공} \\2\ \text{실패}\end{array}\right. X\sim Bernoulli(p)

  • E[X]=pE[X]=p

  • Var[X]=p(1p)Var[X]=p(1-p)

(3) 이항분포(Binomial distribution)

  • 연속적인 베르누이 시행을 거처 나타나는 확률 분포

  • 서로 독립인 베르누이 시행을 n번 반복해서 실행 했을 때, 성공한 횟수 X의 확률 분포

  • fx(x)=P(X=x)=(xn)px(1p)nx=n!x!(nx)! x=0,1,...,nf_x(x) = P(X=x) = (_x^n)p^x(1-p)^{n-x} = \frac{n!}{x!(n-x)!}\,\ x=0,1,...,n

    XB(n,p)X \sim B(n,p)

  • E[X]=npE[X]=np

  • E(X2)=n(n1)p2+npE(X^2)=n(n-1)p^2 + np

  • Var[X]=np(1p)Var[X]=np(1-p)

(4) 포아송 분포(Poisson distribution)

  • 어느 희귀한 사건이 어떤 일정한 시간대에 특정한 사건이 발생할 확률 분포

  • 포아송 분포의 조건

    1. 어떤 단위구간(예, 1일)동안 이를 더 짧은 작은 단위의 구간(예: 1시간)로 나눌 수 있고 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도 중에서 항상 일정
    2. 두 개 이상의 사건이 동시에 발생할 확률은 0에 가까움
    3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
    4. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
    5. 포아송분포 확률 변수의 기댓값과 분산은 모두 λ 임
  • fx(x)=P(X=x)=eλλxx!,x=0,1,2,...f_x(x) = P(X=x) = \frac{e^{-\lambda} \cdot \lambda^x}{x!}, x=0,1,2,...

    Xposson(λ)X \sim posson(\lambda)

  • 이항 분포의 포아송 근사
    확률 변수 X가 XB(n,p)X \sim B(n,p)이고, n이 충분히 크고, p가 아주 작을 때, X의 분포는 평균이 λ=np\lambda = np 인 포아송 분포로 근사 시킬 수 있음
    보통 n이 클때, np<5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X ~ Poisson(np)

(5) 기하 분포(geometric distribution)

  • 어떤 실험에서 처음 성공이 발생하기 까지 시도한 횟수 X의 분포, 이때 각 시도는 베르누이 시행을 따름

  • fx(x)=P(X=x)=(1p)x1p, x=1,2,3...f_x(x) = P(X=x) = (1-p)^{x-1}p,\ x=1,2,3...

    XGeometric(p)X \sim Geometric(p)

  • E(X)=1pE(X)=\frac{1}{p}

  • Var[X]=1pp2Var[X]=\frac{1-p}{p^2}

(6) 음이항분포(negative binomial distribution)

  • 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때 까지 발생한 성공 횟수 X의 확률 분포

  • fx(x)=P(X=x)=(xx+r1)px(1p)r,x=1,2,3...f_x(x) = P(X=x) = (_x^{x+r-1})p^x(1-p)^r, x=1,2,3...

    XNB(r,p)X \sim NB(r, p)

  • E(X)=r1ppE(X)=r\cdot\frac{1-p}{p}

  • Var[X]=r1pp2Var[X]=r\cdot\frac{1-p}{p^2}

이산형 확률 분포 – summary


2. 연속형 확률 분포

(1) 확률 밀도 함수(probability density function)

  • 연속형 확률 변수 X에 대해서 함수 f(x)f(x) 가 특정 조건을 만족하면 확률밀도함수라고 함

  • 확률 밀도 함수 조건

    • 모든 X에 대해서 f(x)0f(x) \geq 0

    • P(x(,))=f(x)dx=1P(x \in (-\infty,\infty)) = \int_{-\infty} ^\infty f(x)dx =1

    • P(aXb)=abf(x)dxP(a \leq X \leq b)= \int_a ^b f(x)dx

  • 확률 밀도 함수의 성질

    • P(X=a)=P(aXa)=aaf(x)dx=0P(X=a)=P(a \leq X \leq a)= \int_a ^a f(x)dx = 0

    • P(aXb)=P(aX<b)=P(a<Xb)=P(a<X<b)P(a \leq X \leq b)=P(a \leq X \lt b)=P(a \lt X \leq b)=P(a \lt X \lt b)

  • 확률 밀도 함수의 평균과 분산

    • E(X)=xf(x)dxE(X)= \int_{-\infty} ^\infty xf(x)dx

    • Var(x)=E(Xμ)2=(xμ)2f(x)dxVar(x)=E(X- \mu)^2 = \int_{-\infty} ^\infty (x- \mu)^2f(x)dx

(2) 누적 분포 함수(cumulative density function)

  • 확률 밀도 함수를 적분하면 누적 분포 함수가 됨

  • F(x)=P[Xx]=xf(x)dtF(x)=P[X \leq x]= \int_{-\infty} ^x f(x)dt

    ddxF(x)=f(x)\frac{d}{dx}F(x) = f(x)

  • 누적분포함수의 성질

    • 0F(x)10 \leq F(x) \leq1

    • 만약 ba, F(b)F(a)b \geq a,\ F(b) \geq F(a)

    • F(b)F(a)=P[aXb]F(b) - F(a) = P[a \leq X \leq b]

(3) 균일 분포(uniform distribution)

  • 확률 변수 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 가짐

  • PDF

    fX(x)=1bafor axbf_X(x) = \frac{1}{b - a} \quad \text{for } a \leq x \leq b

  • CDF : XU(a,b)X \sim U(a, b)

    FX(x)={0for x<axabafor axb1for x>bF_X(x) = \begin{cases} 0 & \text{for } x < a \\ \frac{x - a}{b - a} & \text{for } a \leq x \leq b \\ 1 & \text{for } x > b \end{cases}

  • E[X]=a+b2E[X] = \frac{a + b}{2}

  • E[X2]=a2+ab+b23E[X^2]=\frac{a^2+ab+b^2}{3}

  • Var(X)=(ba)212\text{Var}(X) = \frac{(b - a)^2}{12}

(4) 정규 분포(normal distribution)

  • 정규 분포는 19세기 최대 수학자라고 불리는 독일의 가우스에 의해 제시된 것으로 가우스 분포라고도 함

  • 확률 밀도 함수는 확률 변수 XX가 평균이 μ\mu이고, 분산이 σ2\sigma^2인 정규분포를 따를 때 아래와 같음

  • f(x)=12πσe12σ2,(<x<,<μ<,σ2>0)f(x)=\frac{1}{\sqrt{2 \pi \sigma}}e^\frac{-1}{2 \sigma^2}, (-\infty<x<\infty, -\infty<\mu<\infty, \sigma^2>0)

    XN(μ,σ2)X \sim N(\mu, \sigma^2)

  • 정규 분포(normal distribution)의 평균과 분산
    E(X)=xf(x)dx=x12πσe(xμ)22σ2dx=μE(X)=\int xf(x)dx=\int x\frac{1}{\sqrt{2 \pi \sigma}}e^\frac{(x- \mu)^2}{2 \sigma^2}dx = \mu

    var[X]=σ2\text{var}[X]= \sigma^2

  • 파라메터의 따른 정규 분포 모양 비교

  • 표준 정규 분포(standard normal distribution)

  • 정규 분포의 성질

    • XN(μ,σ2)X \sim N(\mu, \sigma^2)일때, 임수의 상수 a, b에 대하여 aX+bN(aμ+b,a2σ2)aX+b \sim N(a\mu +b, a^2\sigma^2)

    • XN(μ,σ2)X \sim N(\mu, \sigma^2)일때, z=Xμσ,zN(0,1)z=\frac{X-\mu}{\sigma},z\sim N(0,1)

    • XN(μ1,σ12),YN(μ2,σ22)X \sim N(\mu_1, \sigma_1^2), Y \sim N(\mu_2, \sigma_2^2)이고 X와 Y가 독립일때, aX+bYN(aμ1+bμ2,a2σ12+b2σ22)aX + bY \sim N(a\mu_1 + b\mu_2, a^2\sigma_1^2 + b^2\sigma_2^2)

  • 이항분포의 정규 근사

    • XB(n,p)X \sim B(n,p)일때 확률 변수 X는 n이 충분히 크면 근사적으로 정규 분포 Xn(np,np(1p))X \sim n(np, np(1-p))를 따름
      z=Xnpnp(1p)N(0,1)z=\frac{X-np}{\sqrt{np(1-p)}} \sim N(0,1)

(5) 지수분포(exponential distribution)

  • 단위 시간당 발생할 확률 λ\lambda인 어떤 사건의 횟수가 포아송 분포를 따르다면, 어떤 사건이 처음 발생 할때까지 걸린 시간 확률 변수 X는 지수 분포임

  • PDF
    f(x)=λeλx,x0f(x)= \lambda e^{-\lambda x}, x \geq0

  • CDF
    F(x)=1eλx,x0F(x)= 1 - e^{-\lambda x}, x \geq0

  • E[X]=1λE[X] = \frac{1}{\lambda}

  • Var[X]=1λ2\text{Var}[X] = \frac{1}{\lambda^2}

  • 지수분포의 무기억성 (Memoryless Property) : 어떤 시점 부터 소요되는 시간은 과거 시간에 영향을 받지 않음

    P(X>a+tX>a)=P(X>t),a0,t0P(X \gt a+t|X \gt a)=P(X \gt t), a\geq0, t \geq 0

    P(X>a+t)P(X>a)=1P(Xa+t)1P(Xa)=1(1eλ(a+t))a(aeλa)=eλt=P(Xt)\frac{P(X \gt a+t)}{P(X \gt a)} = \frac{1-P(X \leq a+t)}{1-P(X \leq a)}= \frac{1-(1-e^{-\lambda(a+t)})}{a-(a-e^{-\lambda a})}=e^{-\lambda t}=P(X \geq t)

  • 지수분포와 포아송 분포의 관계

연속형 확률 분포 – 확률 분포의 관계도

0개의 댓글