통계 (3)

Myeongsu Moon·2024년 11월 3일
0

제로베이스

목록 보기
13/95

1-5 확률분포 - 이산형 확률분포

  • 확률분포: 확률변수 X가 취할 수 있는 모든 값과 그 값을 나타낸 확률을 표현한 함수
  • 이산형 균등분포: 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포
fx(x)=P(X=x)=1N,where x=1,2,,Nf_x(x) = P(X = x) = \frac{1}{N}, \quad \text{where } x = 1, 2, \dots, N

-> 기대값

xf(x)=1nx=1nn(n+1)2\sum x f(x) = \frac{1}{n} \sum x = \frac{1}{n} \cdot \frac{n (n+1)}{2}

-> 분산

E(X2)(E[X])2=(N+1)(2N+1)6(N+12)2=(N+1)(N1)12E(X^2) - (E[X])^2 = \frac{(N+1)(2N+1)}{6} - \left( \frac{N+1}{2} \right)^2 = \frac{(N+1)(N-1)}{12}
  • 베르누이 시행: 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행
    X={1성공0실패,XBernoulli(p)X = \begin{cases} 1 & \text{성공} \\ 0 & \text{실패} \end{cases}, \quad X \sim \text{Bernoulli}(p)
fX(x)=px(1p)1x,x=0,1f_X(x) = p^x (1-p)^{1-x}, \quad x = 0, 1

-> 기대값

E[X]=1p+0(1p)=pE[X] = 1 \cdot p + 0 \cdot (1 - p) = p

-> 분산

Var[X]=E(Xp)2=(0p)2(1p)+(1p)2p=p(1p)\text{Var}[X] = E(X - p)^2 = (0 - p)^2 \cdot (1 - p) + (1 - p)^2 \cdot p = p(1 - p)
  • 이항분포: 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
    fX(x)=P(X=x)=(nx)px(1p)nx=n!x!(nx)!px(1p)nx,x=0,1,,nf_X(x) = P(X = x) = \binom{n}{x} p^x (1-p)^{n-x} = \frac{n!}{x! (n-x)!} p^x (1-p)^{n-x}, \quad x = 0, 1, \dots, n
XB(n,p)X \sim B(n, p)
  • 포아송 분포: 어느 희귀한 사건이 어떤 일정한 시간때에 특정한 사건이 발생할 확률 분포
    fX(x)=P(X=x)=eλλxx!,x=0,1,2,f_X(x) = P(X = x) = \frac{e^{-\lambda} \lambda^x}{x!}, \quad x = 0, 1, 2, \dots
XPoisson(λ)X \sim \text{Poisson}(\lambda)
  • 이항분포의 포아송 근사
    확률 변수 X가 X ~ B(n, p)이고, n이 충분히 크고, p가 아주 작을 때, X의 분포는 평균이 λ = np인 포아송 분포로 근사 시킬 수 있음
    보통 n이 클 때, np <= 5를 만족하게 p가 작으면 근사 정도가 좋다고 함 X ~ Poisson(np)

  • 기하분포: 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포

    fX(x)=P(X=x)=(1p)x1p,x=1,2,f_X(x) = P(X = x) = (1-p)^{x-1} p, \quad x = 1, 2, \dots
XGeometric(p)X \sim \text{Geometric}(p)
  • 음이항분포: 어떤 실험에서 성공확률이 p일 때, r번의 실패가 나올 때까지 발생한 성공 횟수 X의 확률 분포
    fX(x)=P(X=x)=(x+r1x)pr(1p)x,x=1,2,f_X(x) = P(X = x) = \binom{x + r - 1}{x} p^r (1-p)^x, \quad x = 1, 2, \dots
XNB(r,p)X \sim \text{NB}(r, p)

1-6 확률분포 - 연속형 확률분포

  • 확률밀도함수(PDF)

-> 성질

P(X=a)=P(aXa)=aaf(x)dx=0P(X = a) = P(a \leq X \leq a) = \int_a^a f(x) \, dx = 0
P(aXb)=P(a<X<b)=P(a<Xb)=P(aX<b)P(a \leq X \leq b) = P(a < X < b) = P(a < X \leq b) = P(a \leq X < b)

-> 평균, 분산

E(X)=xf(x)dx,Var(X)=E(Xμ)2=(xμ)2f(x)dxE(X) = \int_{-\infty}^{\infty} x f(x) \, dx, \quad \text{Var}(X) = E(X - \mu)^2 = \int_{-\infty}^{\infty} (x - \mu)^2 f(x) \, dx
  • 누적분포함수(CDF): 확률밀도함수의 적분
    F(x)=P(Xx)=xf(t)dtF(x) = P(X \leq x) = \int_{-\infty}^x f(t) \, dt
ddxF(x)=f(x)\frac{d}{dx} F(x) = f(x)
  • 균일분포: 확률변수 X가 a와 b사이에서 같은 pdf를 가짐
  • 정규분포(가우스분포)
    f(x)=12πσe12σ2(xμ)2,<x<,<μ<,σ2>0f(x) = \frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{1}{2\sigma^2}(x - \mu)^2}, \quad -\infty < x < \infty, -\infty < \mu < \infty, \sigma^2 > 0
XN(μ,σ2)X \sim N(\mu, \sigma^2)
  • 표준정규분포: 정규분포를 표준화 한 것

  • 정규분포의 성질

  1. (XN(μ,σ2))( X \sim N(\mu, \sigma^2) ) 일 때, 임의의 상수 ( a, b )에 대하여 (aX+bN(aμ+b,a2σ2))( aX + b \sim N(a\mu + b, a^2\sigma^2) )

  2. (XN(μ,σ2))( X \sim N(\mu, \sigma^2)) 일 때, (z=XμσN(0,1))( z = \frac{X - \mu}{\sigma} \sim N(0, 1) )

  3. (XsimN(μ1,σ12),,YN(μ2,σ22))( X sim N(\mu_1, \sigma_1^2), , Y \sim N(\mu_2, \sigma_2^2) )이고, ( X )와 ( Y )가 독립일 때 (aX+bYN(aμ1+bμ2,a2σ12+b2σ22))( aX + bY \sim N(a\mu_1 + b\mu_2, a^2\sigma_1^2 + b^2\sigma_2^2) )

  • 이항분포의 정규근사
    (XB(n,p))( X \sim B(n, p) ) 일 때, 확률 변수 ( X )는 ( n )이 충분히 크면 근사적으로 정규 분포 (XN(np,np(1p)))( X \sim N(np, np(1-p)) ) 를 따름

  • 지수 분포: 단위 시간당 발생할 확률인 어떤 사건의 횟수가 포아송 분포를 따른다면 어떤 사건이 처음 발쌩할 때까지 걸린 시간 확률변수 X는 지수 분포

-> 지수분포의 pdf

f(x)=λeλx,x0f(x) = \lambda e^{-\lambda x}, \quad x \geq 0

-> 지수분포의 cdf

F(x)=1eλx,x0F(x) = 1 - e^{-\lambda x}, \quad x \geq 0
  • 지수분포의 무기억성: 어떤 시점에서부터 소요되는 시간은 과거 시간에 영향을 받지 않음
    P(X>a+tX>a)=P(X>t),a0,t0P(X > a + t \mid X > a) = P(X > t), \quad a \geq 0, \quad t \geq 0
P(X>a+t)P(X>a)=1P(Xa+t)1P(Xa)=1(1eλ(a+t))1(1eλa)=eλt=P(Xt)\frac{P(X > a + t)}{P(X > a)} = \frac{1 - P(X \leq a + t)}{1 - P(X \leq a)} = \frac{1 - (1 - e^{-\lambda (a+t)})}{1 - (1 - e^{-\lambda a})} = e^{-\lambda t} = P(X \geq t)

이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다

0개의 댓글