통계 (2)

MSMoon·2025년 4월 8일
0

데이터 이론 학습

목록 보기
2/27
post-thumbnail

Chapter1 기초통계_기초과정

4) 확률분포

2. 연속형 확률분포

  • 확률밀도함수(probability density function): 연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률밀도함수라고 함
  1. 모든 ( X )에 대해서 f(x)0f(x) \geq 0

  2. P(x(,))=f(x)dx=1P(x \in (-\infty, \infty)) = \int_{-\infty}^{\infty} f(x)\,dx = 1

  3. P(aXb)=abf(x)dxP(a \leq X \leq b) = \int_{a}^{b} f(x)\,dx

  • 확률 밀도 함수의 성질
  1. P(X=a)=P(aXa)=aaf(x)dx=0P(X = a) = P(a \leq X \leq a) = \int_{a}^{a} f(x)\,dx = 0
  2. P(aXb)=P(aX<b)=P(a<Xb)=P(a<X<b)P(a \leq X \leq b) = P(a \leq X < b) = P(a < X \leq b) = P(a < X < b)
  • 확률밀도함수의 평균과 분산
    E(X)=xf(x)dxE(X) = \int_{-\infty}^{\infty} x f(x)\,dx
Var(X)=E[(Xμ)2]=(xμ)2f(x)dx\mathrm{Var}(X) = E[(X - \mu)^2] = \int_{-\infty}^{\infty} (x - \mu)^2 f(x)\,dx

  • 누적분포함수(cumulative density function): 확률밀도함수를 적분
    F(x)=P(Xx)=xf(t)dtF(x) = P(X \leq x) = \int_{-\infty}^{x} f(t)\,dt
ddxF(x)=f(x)\frac{d}{dx}F(x) = f(x)
  • 누적분포함수의 성질
  1. 0F(x)10 \leq F(x) \leq 1

  2. 만약 ba,F(b)F(a)b \geq a, \quad F(b) \geq F(a)

  3. F(b)F(a)=P(aXb)F(b) - F(a) = P(a \leq X \leq b)

  • 균일분포(uniform distribution)
    f(x)={1ba,axb0,otherwisef(x) = \begin{cases} \frac{1}{b - a}, & a \leq x \leq b \\ 0, & \text{otherwise} \end{cases}

F(x)={0,xaxaba,a<x<b1,xbF(x) = \begin{cases} 0, & x \leq a \\ \frac{x - a}{b - a}, & a < x < b \\ 1, & x \geq b \end{cases}

  • 정규분포(normal distribution, 가우스 분포)
    f(x)=12πσexp(12σ2(xμ)2),<x<,  <μ<,  σ2>0f(x) = \frac{1}{\sqrt{2\pi\sigma}} \exp\left( -\frac{1}{2\sigma^2}(x - \mu)^2 \right), \quad -\infty < x < \infty,\; -\infty < \mu < \infty,\; \sigma^2 > 0
XN(μ,σ2)X \sim \mathcal{N}(\mu, \sigma^2)

  • 정규분포의 평균과 분산
    평균: E[X]=μE[X] = \mu
    분산: Var[X]=σ2\mathrm{Var}[X] = \sigma^2,
    표준편차: σ\sigma
E[X]=xf(x)dx=x12πσe12σ2(xμ)2dx=μE[X] = \int x f(x)\,dx = \int x \cdot \frac{1}{\sqrt{2\pi\sigma}} e^{-\frac{1}{2\sigma^2}(x - \mu)^2} dx = \mu
  • 표준 정규 분포(standard normal distribution)
f(x)=12πσe12σ2(xμ)2f(x) = \frac{1}{\sqrt{2\pi\sigma}} \, e^{ -\frac{1}{2\sigma^2}(x - \mu)^2 }
φ(z)=12πe12z2\varphi(z) = \frac{1}{\sqrt{2\pi}} \, e^{ -\frac{1}{2}z^2 }
φ(z)=P(Zz)\varphi(z) = P(Z \leq z)

  • 정규분포의 성질
  1. XN(μ,σ2)X \sim \mathcal{N}(\mu,\, \sigma^2)일 때, 임의의 상수 ( a, b )에 대해서 aX+bN(aμ+b,a2σ2)aX + b \sim \mathcal{N}(a\mu + b,\, a^2\sigma^2)

  2. XN(μ,σ2)X \sim \mathcal{N}(\mu,\, \sigma^2)일 때, 표준화된 확률 변수 ( z = \frac{X - \mu}{\sigma} )는 zN(0,1)z \sim \mathcal{N}(0, 1)

  3. XN(μ1,σ12)X \sim \mathcal{N}(\mu_1, \sigma_1^2), YN(μ2,σ22)Y \sim \mathcal{N}(\mu_2, \sigma_2^2)이고, X와 Y가 독립일 때 aX+bYN(aμ1+bμ2,a2σ12+b2σ22)aX + bY \sim \mathcal{N}(a\mu_1 + b\mu_2,\, a^2\sigma_1^2 + b^2\sigma_2^2)

  • 이항분포의 정규 근사: XB(n,p)X \sim B(n, p)일 때, 확률 변수 XXnn이 sufficiently 크면 근사적으로 정규 분포 XN(np,np(1p))X \sim \mathcal{N}(np,\, np(1 - p)) 를 따른다.
  • 지수분포(exponential distribution): 단위 시간당 발생할 확률 λ\lambda인 어떤 사건의 횟수가 포아송 분포를 따른다면, 어떤 사건이 처음 발생할 때까지 걸린 시간 확률 변수 X는 지수 분포임

-지수 분포의 PDF: f(x)=λeλx,x0f(x) = \lambda e^{-\lambda x}, \quad x \geq 0
XExp(λ)X \sim \mathrm{Exp}(\lambda)

  • 지수 분포의 CDF: F(x)=1eλx,x0F(x) = 1 - e^{-\lambda x}, \quad x \geq 0

  • 지수분포의 무기억성(Memoryless Property): 어떤 시점부터 소요되는 시간은 과거 시간에 영향을 받지 않음

    P(X>a+tX>a)=P(X>t),a0,  t0P(X > a + t \mid X > a) = P(X > t), \quad a \geq 0,\; t \geq 0
P(X>a+t)P(X>a)=1P(Xa+t)1P(Xa)=1(1eλ(a+t))1(1eλa)=eλ(a+t)eλa=eλt=P(X>t)\frac{P(X > a + t)}{P(X > a)} = \frac{1 - P(X \leq a + t)}{1 - P(X \leq a)} = \frac{1 - (1 - e^{-\lambda(a + t)})}{1 - (1 - e^{-\lambda a})} = \frac{e^{-\lambda(a + t)}}{e^{-\lambda a}} = e^{-\lambda t} = P(X > t)
  • 지수분포와 포아송 분포의 관계

  • 확률분포의 관계도

5) 모집단과 표본 분포

1. 모집단과 표본

  • 모집단(Population), 표본(Sample)

  • 표본추출(Sampling): 모집단으로부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함

  • 복원추출(Sampling with replacement): 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음

  • 비복원추출(Samplign without replacement): 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

  • Random Sampling: 모딥단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법

  • 불균형 데이터(Imbalanced Data)의 문제: 데이터가 불균형 데이터 일 경우 문제가 생김

  • Sampling 기법: 관심 대상의 비율이 낮은 경우
    -> Over Sampling: 적은 class의 수를 많은 class의 비율만큼 증가, 과도적합 문제 발생 가능
    -> Under Sampling: 많은 class의 수를 적은 class의 비율만큼 감소, 데이터 편향 문제나, 모형의 성능이 떨어질 수 있음

2. 표본분포

  • 통계량(Statistic): 표본에 기초하여 계산되는 수치 함수
X=x1+x2++xnn\overline{X} = \frac{x_1 + x_2 + \cdots + x_n}{n}
s2=1n1i=1n(xiX)2s^2 = \frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \overline{X})^2
  • 표본분포(Sampling distribution): 통계량들이 이루는 분포

  • 표본 평균(Sample mean)

    X=1ni=1nXi=1n(x1+x2++xn)\overline{X} = \frac{1}{n} \sum_{i=1}^{n} X_i = \frac{1}{n} (x_1 + x_2 + \cdots + x_n)
  • 표본 평균의 기대값

    E[X]=E[1n(x1+x2++xn)]=1n(E[x1]+E[x2]++E[xn])=1n(μ+μ++μ)=μE[\overline{X}] = E\left[\frac{1}{n}(x_1 + x_2 + \cdots + x_n)\right] = \frac{1}{n} \left(E[x_1] + E[x_2] + \cdots + E[x_n] \right) = \frac{1}{n} (\mu + \mu + \cdots + \mu) = \mu
  • 표본 평균의 분산

    Var[X]=Var[1n(x1+x2++xn)]=1n2(Var[x1]+Var[x2]++Var[xn])=1n2(σ2+σ2++σ2)=nσ2n2=σ2n\mathrm{Var}[\overline{X}] = \mathrm{Var} \left[\frac{1}{n} (x_1 + x_2 + \cdots + x_n) \right] = \frac{1}{n^2} \left( \mathrm{Var}[x_1] + \mathrm{Var}[x_2] + \cdots + \mathrm{Var}[x_n] \right) = \frac{1}{n^2} ( \sigma^2 + \sigma^2 + \cdots + \sigma^2 ) = \frac{n \sigma^2}{n^2} = \frac{\sigma^2}{n}
  • 중심극한 정리(central limit theorem)

  • 카이제곱 분포(Chi-square distribution): 확률 변수 Z1,Z2,,ZnZ_1, Z_2, \dots, Z_n이 표준 정규 분포를 따른다면, 확률 변수 Z=Z12+Z22++Zn2Z = Z_1^2 + Z_2^2 + \cdots + Z_n^2는 자유도 nn인 카이제곱 분포를 따름
    -> 카이제곱 분포는 범주형 자료 분석에서 활용

  • 확률 변수 Zχ2(ν)Z \sim \chi^2(\nu), 즉 ZZ가 자유도 ν\nu인 카이제곱 분포를 따를 때:

확률 밀도 함수 (PDF):

f(x;ν)=12ν/2Γ(ν/2)xν/21ex/2,x>0f(x;\, \nu) = \frac{1}{2^{\nu/2} \Gamma(\nu/2)} x^{\nu/2 - 1} e^{-x/2}, \quad x > 0

기대값과 분산:

E[X]=ν,Var[X]=2νE[X] = \nu, \qquad \mathrm{Var}[X] = 2\nu
  • 자유도: 표본수-제약조건의 수 또는 표본수-추정해야 하는 모수의 수를 의미, 일반적으로 n-1을 사용

  • T분포(T-distribution): ZN(0,1)Z \sim \mathcal{N}(0, 1) 을 따르고, Yχ2(ν)Y \sim \chi^2(\nu) 일 때, T=ZY/νt(ν)T = \frac{Z}{\sqrt{Y / \nu}} \sim t(\nu)

  • 만약 확률 변수 XX가 정규분포를 따르고 모표준편차 σ\sigma를 안다면,

z=Xμσ/nN(0,1)z = \frac{X - \mu}{\sigma / \sqrt{n}} \sim \mathcal{N}(0, 1)
  • 만약 모표준편차 σ\sigma를 모른다면, σ\sigma를 대신해서 표본표준편차 ss를 이용하여 확률변수 tt를 정의함
t=Xμs/nt(ν),여기서 ν의 자유도는 n1t = \frac{X - \mu}{s / \sqrt{n}} \sim t(\nu), \quad \text{여기서 } \nu \text{의 자유도는 } n - 1\text{임}
  • F분포(F distribution): Y1χ2(ν1),  Y2χ2(ν2)Y_1 \sim \chi^2(\nu_1),\; Y_2 \sim \chi^2(\nu_2)이면, FY1/ν1Y2/ν2,F>0F \sim \frac{Y_1 / \nu_1}{Y_2 / \nu_2}, \quad F > 0

  • 두 개의 독립적인 모집단(Y1,Y2Y_1, Y_2)으로부터 각각 표본을 추출했을 때
    Y1(n11)S12σ12χ2(n11)Y_1 \sim \frac{(n_1 - 1)S_1^2}{\sigma_1^2} \sim \chi^2(n_1 - 1),
    Y2(n21)S22σ22χ2(n21)Y_2 \sim \frac{(n_2 - 1)S_2^2}{\sigma_2^2} \sim \chi^2(n_2 - 1)

F 분포는 아래와 같음:

F=Y1/ν1Y2/ν2=(n11)S12σ12/(n11)(n21)S22σ22/(n21)=S12/σ12S22/σ22F(n11,n22)F = \frac{Y_1 / \nu_1}{Y_2 / \nu_2} = \frac{\frac{(n_1 - 1)S_1^2}{\sigma_1^2} / (n_1 - 1)}{\frac{(n_2 - 1)S_2^2}{\sigma_2^2} / (n_2 - 1)} = \frac{S_1^2 / \sigma_1^2}{S_2^2 / \sigma_2^2} \sim F(n_1 - 1, n_2 - 2)

-> 서로 독립인 두 정규모집단의 분산 또는 표준편차들의 비율에 대한 통계적 추론, 분산분석 등에 활용

이 글은 제로베이스 강의 자료 일부를 발췌하여 작성되었습니다

0개의 댓글