Probability and Statistics

김소은·2025년 6월 12일

Binomial PI PyQT SQRT factorial integral numerical_integral()numpy pandas pyqgis sagemath

순열과 조합
factorial()

순열

\binom{n}{r} \;=\;_nP_r\;=\;\frac{n!}{(n-r)!}

조합

binomial()

\binom{n}{r} \;=\;_nC_r\;=\;\frac{n!}{r!\,(n-r)!}

조건부확률

conditional probability $P(B\,|\,A)$

베이즈 정리

Bayes' Theorem

사전확률 : $P(A)$ , 미래에 어떤 사건( $A$ )이 일어날 확률을 사전에 측정한 것
사후확률 : $P(A\,|\,B)$ , 이미 발생한 어떤 사건 $B$ 에 대해, 이것이 발생한 원인 $A$ 의 불확실성을 표현한 것. " $B$ 가 발생한 사후에 $A$ 를 따졌다"
$A$ : 나라가 개판이다 / $B$ : 출산률이 개판이다.

기댓값/분산/표준편차

기댓값

expectation $E(X)$ = 𝜇

분산

variance $V(X)$ = 𝜎² = $E(X^2)-$ 𝜇²: 기댓값과 떨어진 정도

표준편차

standard deviation 𝜎 = $\sqrt{V(X)}$ : 분산의 양의 제곱근

확률밀도함수(연속)

확률변수 $X$ 의 분포를 나타내는 함수로, 다음 조건을 만족해야 한다 :

$E(X) =\;$ integral(x*f, x, 0, 1), (var('t'))

확률분포

이산 확률분포 - $\sum$
연속 확률분포 - $\int$

베르누이분포

Bernoulli distribution $B(1,\,p)$ : 베르누이 시행을 1회 시행한 확률변수 $X$ 의 값이 실패(0, $(1-p\%)$ ), 성공(1, $p\%$ ) 둘 뿐인 경우, "확률변수 $X$ 는 베르누이 분포를 따른다"고 하며, " $X$ ~ $B(1,\,p)$ "로 나타낸다.

E(X) = p\,,\\V(X) = p(1-p)

확률분포 : $P(X=x)=p^x(1-p)^{1-x},\;\;\;x=0,1$

p = 1/6 # 주사위를 던져 1이 나올 확률
P = [p**t * (1-p)**(1-t) for t in range(2)] # t = 0과 1뿐이므로 [0,1]
print(P)

#[5/6, 1/6] <= 베르누이 시행에서 X의 확률분포

이항분포와 포아송분포

이항분포(이산)

Binomial distribution $B(n,\,p)$

P(X=x)=\binom{n}{x}p^xq^{n-x}\;\;\;(단,\;p+q=1,\;x=0,1,2,⋯,n)

X\,\sim\;B(n,p)

포아송 분포(이산(

Poisson distribution $P(\lambda)$ : 이항분포 $B(n,p)$ 의 극한분포
$평균\;\lambda=np$ 가 일정하고 $np\le5$ 일 때,

\lim_{n\to\infin}{B(n,p)}=\lim_{n\to\infin}\,_nC_xp^x(1-p)^{n-x}=\frac{\lambda^x}{x!}e^{-\lambda}=\frac{e^{-\lambda}\lambda^x}{x!}=P(\lambda)

연속확률분포 - 균등분포

Uniform distribution $U(a,b)$ : $P(a\le\,X\le\,b)=1$ 일 때, $X\sim\,U(a,b)$

연속확률분포 - (표준)정규분포

Normal distribution $N(\mu, \sigma^2)$ :

f(x)=\frac{1}{\sqrt{2\pi}\,\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\;(-\infin<x<\infin)

일 때,

X\sim\,N(\mu,\sigma^2)\,.

Standard normal distribution $N(0,1)$ :

Z=\frac{X-\mu}{\sigma},\;\;\;\;Z\sim\,N(0,1)

F(z)=P(Z\le\,z)=\int_{-\infin}^{z}\frac{1}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz

# pi = 3.14159292... 내장된 값임
f(z) = 1 / sqrt(2*pi) * e^(-z^2 / 2)
print(numerical_integral(f(z), -3, 3)[0])
print(numerical_integral(f(z), -1, 1.2)[0])

연속확률분포 - 지수분포

Exponential distribution $G(1, 1/\lambda)$ : ** 서로 독립적인 사건이 단위시간 당 발생하는 사건의 횟수 **가 푸아송 분포를 따른다면, ** 다음 사건이 일어날 때까지의 대기 시간 **은 지수분포를 따른다고 한다.

f(x) = \begin{cases} \lambda e^{-\lambda x} & 0<x<\infin \\ 0 & x\le0 \end{cases}

$\\$
결합확률분포와 결합밀도함수 : 확률변수가 두 개 이상일 때!

결합확률분포(이산)

Joint probability distribution : $X$ 와 $Y$ 의 가능한 모든 값에 대해 $p(x_i,y_i)$ 값을 나타낸 것.

결합밀도함수(연속)

Joint density function $f(x, y) \ge 0$

f_X(x)=\int_{-\infin}^{\infin}f(x,y)dy,\;\; f_Y(y)=\int_{-\infin}^{\infin}f(x,y)dx

$\\$
공분산과 상관계수, 공분산행렬

공분산

Covariance

Cov(X,Y)=\sigma_{xy}=E[(X-\mu_x)(Y-\mu_y)]=E(XY)-\mu_x\mu_y

상관계수

Correlation $Corr(X,Y) = \rho$

X, Y : f(x,y) = x+y,\;\;0<x<1,\;\;0<y<1일 때,\;Cov(X,Y)와\;Corr(X,Y)는?

var('x,y')
f(x,y) = x+y
f_X(x) = integral(f(x,y), y, 0, 1)
f_Y(y) = integral(f(x,y), x, 0, 1)

EX = integral(x*f_X(x), x, 0, 1)
EY = integral(y*f_Y(y), y, 0, 1)

EXY = integral( integral(x*y*f(x,y), x, 0, 1) , y, 0, 1)

Cov = EXY - EX*EY
print(f'Cov[X,Y] = {Cov}')

VX = integral(x^2 * f_X(x), x, 0, 1) - EX^2
YX = integral(y^2 * f_Y(y), y, 0, 1) - EY^2

Corr = Cov / (sqrt(VX)*sqrt(VY))
print(f'Corr[X,Y] = {Corr}')

공분산행렬

Covariance matrix $Var[x] = \Sigma$ : 정사각행렬의 값을 각 변수의 분산(주대각선)과 공분산으로 채운 것

주성분 분석(PCA)

Principal Component Analysis : 차원 축소 기법 중 하나
주성분 PC1 > PC2 > PC3 순서로 원 데이터의 분포를 가장 많이 보존하며, 세 주성분이 원 데이터 분포의 90%를 보존한다고 할 때, 10%의 정보는 포기하고 PC1, PC2, PC3만 택하여 이를 3차원으로 표현한다. 이 경우 원 데이터에 비해 계산과 시각화가 용이하고, 분석이 용이해진다.

김소은

개발자

이전 포스트

하삼각 행렬의 역행렬이 하삼각 행렬임을 증명

다음 포스트