순열과 조합
factorial()

순열

(nr)  =  nPr  =  n!(nr)!\binom{n}{r} \;=\;_nP_r\;=\;\frac{n!}{(n-r)!}

조합

binomial()

(nr)  =  nCr  =  n!r!(nr)!\binom{n}{r} \;=\;_nC_r\;=\;\frac{n!}{r!\,(n-r)!}

조건부확률

conditional probability P(BA)P(B\,|\,A)

베이즈 정리

Bayes' Theorem

  • 사전확률 : P(A)P(A), 미래에 어떤 사건(AA)이 일어날 확률을 사전에 측정한 것
  • 사후확률 : P(AB)P(A\,|\,B), 이미 발생한 어떤 사건 BB에 대해, 이것이 발생한 원인 AA의 불확실성을 표현한 것. "BB가 발생한 사후에 AA를 따졌다"
    AA : 나라가 개판이다 / BB : 출산률이 개판이다.

기댓값/분산/표준편차

기댓값

expectation E(X)E(X) = 𝜇

분산

variance V(X)V(X) = 𝜎² = E(X2)E(X^2)-𝜇²: 기댓값과 떨어진 정도

표준편차

standard deviation 𝜎 = V(X)\sqrt{V(X)} : 분산의 양의 제곱근

확률밀도함수(연속)

확률변수 XX의 분포를 나타내는 함수로, 다음 조건을 만족해야 한다 :

E(X)=  E(X) =\;integral(x*f, x, 0, 1), (var('t'))

확률분포

  • 이산 확률분포 - \sum
  • 연속 확률분포 - \int

베르누이분포

Bernoulli distribution B(1,p)B(1,\,p) : 베르누이 시행을 1회 시행한 확률변수 XX의 값이 실패(0, (1p%)(1-p\%)), 성공(1, p%p\%) 둘 뿐인 경우, "확률변수 XX베르누이 분포를 따른다"고 하며, "XX ~ B(1,p)B(1,\,p)"로 나타낸다.

E(X)=p,V(X)=p(1p)E(X) = p\,,\\V(X) = p(1-p)

확률분포 : P(X=x)=px(1p)1x,      x=0,1P(X=x)=p^x(1-p)^{1-x},\;\;\;x=0,1

p = 1/6 # 주사위를 던져 1이 나올 확률
P = [p**t * (1-p)**(1-t) for t in range(2)] # t = 0과 1뿐이므로 [0,1]
print(P)

#[5/6, 1/6] <= 베르누이 시행에서 X의 확률분포

이항분포와 포아송분포

이항분포(이산)

Binomial distribution B(n,p)B(n,\,p)

P(X=x)=(nx)pxqnx      (,  p+q=1,  x=0,1,2,,n)P(X=x)=\binom{n}{x}p^xq^{n-x}\;\;\;(단,\;p+q=1,\;x=0,1,2,⋯,n)
X  B(n,p)X\,\sim\;B(n,p)

포아송 분포(이산(

Poisson distribution P(λ)P(\lambda) : 이항분포 B(n,p)B(n,p)의 극한분포
평균  λ=np평균\;\lambda=np가 일정하고 np5np\le5일 때,

limnB(n,p)=limnnCxpx(1p)nx=λxx!eλ=eλλxx!=P(λ)\lim_{n\to\infin}{B(n,p)}=\lim_{n\to\infin}\,_nC_xp^x(1-p)^{n-x}=\frac{\lambda^x}{x!}e^{-\lambda}=\frac{e^{-\lambda}\lambda^x}{x!}=P(\lambda)

연속확률분포 - 균등분포

Uniform distribution U(a,b)U(a,b) : P(aXb)=1P(a\le\,X\le\,b)=1일 때, XU(a,b)X\sim\,U(a,b)

연속확률분포 - (표준)정규분포

Normal distribution N(μ,σ2)N(\mu, \sigma^2) :

f(x)=12πσe(xμ)22σ2  (<x<)f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\;(-\infin<x<\infin)

일 때,

XN(μ,σ2).X\sim\,N(\mu,\sigma^2)\,.

Standard normal distribution N(0,1)N(0,1) :

Z=Xμσ,        ZN(0,1)Z=\frac{X-\mu}{\sigma},\;\;\;\;Z\sim\,N(0,1)
F(z)=P(Zz)=z12πez22dzF(z)=P(Z\le\,z)=\int_{-\infin}^{z}\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz
# pi = 3.14159292... 내장된 값임
f(z) = 1 / sqrt(2*pi) * e^(-z^2 / 2)
print(numerical_integral(f(z), -3, 3)[0])
print(numerical_integral(f(z), -1, 1.2)[0])

연속확률분포 - 지수분포

Exponential distribution G(1,1/λ)G(1, 1/\lambda) : ** 서로 독립적인 사건이 단위시간 당 발생하는 사건의 횟수 **가 푸아송 분포를 따른다면, ** 다음 사건이 일어날 때까지의 대기 시간 **은 지수분포를 따른다고 한다.

f(x)={λeλx0<x<0x0f(x) = \begin{cases} \lambda e^{-\lambda x} & 0<x<\infin \\ 0 & x\le0 \end{cases}

\\
결합확률분포와 결합밀도함수 : 확률변수가 두 개 이상일 때!


결합확률분포(이산)

Joint probability distribution : XXYY의 가능한 모든 값에 대해 p(xi,yi)p(x_i,y_i) 값을 나타낸 것.

결합밀도함수(연속)

Joint density function f(x,y)0f(x, y) \ge 0

fX(x)=f(x,y)dy,    fY(y)=f(x,y)dxf_X(x)=\int_{-\infin}^{\infin}f(x,y)dy,\;\; f_Y(y)=\int_{-\infin}^{\infin}f(x,y)dx

\\
공분산과 상관계수, 공분산행렬

공분산

Covariance

Cov(X,Y)=σxy=E[(Xμx)(Yμy)]=E(XY)μxμyCov(X,Y)=\sigma_{xy}=E[(X-\mu_x)(Y-\mu_y)]=E(XY)-\mu_x\mu_y

상관계수

Correlation Corr(X,Y)=ρCorr(X,Y) = \rho

X,Y:f(x,y)=x+y,    0<x<1,    0<y<1일때,  Cov(X,Y)  Corr(X,Y)?X, Y : f(x,y) = x+y,\;\;0<x<1,\;\;0<y<1일 때,\;Cov(X,Y)와\;Corr(X,Y)는?
var('x,y')
f(x,y) = x+y
f_X(x) = integral(f(x,y), y, 0, 1)
f_Y(y) = integral(f(x,y), x, 0, 1)

EX = integral(x*f_X(x), x, 0, 1)
EY = integral(y*f_Y(y), y, 0, 1)

EXY = integral( integral(x*y*f(x,y), x, 0, 1) , y, 0, 1)

Cov = EXY - EX*EY
print(f'Cov[X,Y] = {Cov}')

VX = integral(x^2 * f_X(x), x, 0, 1) - EX^2
YX = integral(y^2 * f_Y(y), y, 0, 1) - EY^2

Corr = Cov / (sqrt(VX)*sqrt(VY))
print(f'Corr[X,Y] = {Corr}')

공분산행렬

Covariance matrix Var[x]=ΣVar[x] = \Sigma : 정사각행렬의 값을 각 변수의 분산(주대각선)과 공분산으로 채운 것

주성분 분석(PCA)

Principal Component Analysis : 차원 축소 기법 중 하나
주성분 PC1 > PC2 > PC3 순서로 원 데이터의 분포를 가장 많이 보존하며, 세 주성분이 원 데이터 분포의 90%를 보존한다고 할 때, 10%의 정보는 포기하고 PC1, PC2, PC3만 택하여 이를 3차원으로 표현한다. 이 경우 원 데이터에 비해 계산과 시각화가 용이하고, 분석이 용이해진다.

profile
개발자

0개의 댓글