Probability Statistics

‍이세현·2024년 10월 15일
1

Probability

확률 변수

  • 무작위 실험을 했을 때 특정 확률로 발생하는 각각의 사건을 수치적 값으로 표현하는 변수
  • 확률 분포: 확률변수가 가질 수 있는 모든 값 집합 전체에 걸쳐 확률을 표현한 것
  • 확률의 공리(명제)
    1. P(Ω)=1,ΩP(\Omega)=1, \Omega는 표본공간
    2. 사건 AΩA \in \Omega에 대해 0P(A)10 \leq P(A) \leq 1
    3. 서로 배반인 사건 AABB에 대해 P(AB)=P(A)+P(B)P(A\cup B)=P(A)+P(B)

Probability function

  • 확률 질량 함수
    • 이산 값을 가지는 정의역 상에서 정의된 확률 분포
  • 확률 밀도 함수
    • 연속 값을 가지는 정의역 상에서 정의된 확률 분포

확률 벡터

  • 여러 개의 확률 변수를 묶어서 표현한 것
    X=(X1,X2,X3,X4)X=(X_1, X_2, X_3, X_4)

조건부 확률

  • 조건부 확률
    P(BA)=P(AB)P(A)P(B|A)=\frac{P(A\cap B)}{P(A)}
  • 독립
    P(x,y)=P(xy)P(y)=P(x)(y)P(x, y)=P(x|y)P(y)=P(x)(y)
  • 평균
    μ=1ni=1nxi\mu=\frac{1}{n}\sum_{i=1}^{n}x_i
  • 분산
    σ2=1ni=1n(xiμ)2\sigma^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2
  • 확률의 곱 규칙(결합확률)
    P(y,x)=P(xy)P(y)P(y,x)=P(x|y)P(y)
  • 확률의 합 규칙(주변확률)
    P(x)=yP(y,x)=xP(xy)P(y)P(x)=\sum_yP(y,x)=\sum_xP(x|y)P(y)

Bayes Rule

확률을 바라보는 관점

  1. 빈도주의
    • 사건의 발생 빈도에 기반한 객관적인 확률 해석
    • 반복 가능한 실험이나 관찰을 통해 확률을 정의
    • ex) 주사위를 무수히 많이 던졌을 때 1이 나온 경우가 전체의 1/6이다.
  2. 베이지안
    • 주관적 믿음의 정보를 나타내는 확률 해석
    • 사전 지식이나 믿음을 바탕으로 초기 확률을 설정하고 새로운 증거나 데이터를 통해 확률을 갱신한다
    • ex) 주사위를 던졌을 때 1이 나온다는 주장의 신뢰도는 1/6이다.
    • ex) 선수의 우승 확률을 계산할 때 몸값을 사전 지식으로 설정하고, 경기를 거쳐 확률을 갱신한다.

베이즈 정리

P(y,x)=P(xy)P(y)=P(x,y)=P(yx)P(x)P(y,x)=P(x|y)P(y)=P(x,y)=P(y|x)P(x)
P(yx)=P(xy)P(y)P(x)P(y|x)=\frac{P(x|y)P(y)}{P(x)}
  • 베이즈 정리의 해석
    • 사후확률 = 우도 × 사전확률 ÷ Evidence
    • 새로운 정보를 토대로 어떤 사건이 발생했다는 주장에 대한 신뢰도를 갱신해 나가는 방법
    • yy: 어떤 사건이 발생했다는 주장
    • xx: 새로운 정보 evidence
    • P(y)P(y): 주장의 신뢰도, Evidence 발생 이전의 확률
    • P(yx)P(y|x): 새로운 정보 evidence를 받은 후 갱신된 신뢰도, 즉 사후확률
  • 베이즈 정리의 재해석
    • 데이터 xx를 통해 사전 확률을 사후확률로 업데이트하는 것은 머신러닝 모델의 데이터 기반 학습 원리와 같다.

Maximum Likelihood Estimation

  • 실험을 여러번 반복하여 데이터를 얻었다고 가정한다.
    • 데이터 X\mathbb{X}가 주어졌을 때 X\mathbb{X}를 발생시켰을 가능성을 최대로 하는 매개변수 θ={q3}\theta=\{q_3\}의 값 찾기
      q3^=argmaxP(Xq3)\hat{q_3}=\arg\max P(\mathbb{X}|q_3)
      θ^=argmaxP(Xθ)\hat{\theta}=\arg\max P(\mathbb{X}|\theta)
    • Likelihood: xx를 알고 yy를 추정해야할 때 P(xy)P(x|y)
  • 각 개별 데이터는 모두 독립 시행이다.
    P(Xθ)=P(x1,x2,,xnθ)=i=1nP(xiθ)P(\mathbb{X}|\theta)=P(\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_n|\theta)=\prod_{i=1}^{n}P(\mathbf{x}_i|\theta)
    • Likelihood를 최대로 하는 θ\theta는 데이터를 가장 잘 설명하는 매개변수이다.
    • 양변에 단조증가함수인 log\log를 적용하면 계산이 효율적이다.

확률분포의 예

Gaussian Distribution

N(x;μ,σ2)=1σ2πexp(12(xμσ)2)N(x;\mu,\sigma^2)=\frac{1}{{\sigma \sqrt {2\pi } }}\exp{ \Big( -\frac{1}{2} \big( \frac{x-\mu}{\sigma} \big)^2 \Big)}
  • 두 매개변수 μ,σ\mu, \sigma에 의해 개형이 결정된다.
  • 평균을 기준으로 대칭이다.
    • 평균, 중앙값, 최빈값이 동일하다.
  • 가우시안 분포가 흔히 사용되는 이유
    • 중심극한정리
      • 무작위로 추출된 표본의 크기가 커질수록 표본 평균의 분포는 모집단의 분포 모양과 관계 없이 정규분포에 가까워진다.
      • 표본의 분포 파악이 가능해진다.

Bernoulli Distribution

Ber(x;p)=px(1p)1xBer(x;p)=p^x(1-p)^{1-x}
  • 성공(x=1)(x=1) 확률이 pp이고 실패(x=0)(x=0) 확률이 1p1-p인 분포
  • 매개변수는 pp

Binomial Distribution

B(x;m,p)=mCxpx(1p)mxB(x;m,p)={}_mC_xp^x(1-p)^{m-x}
  • 성공 확률이 pp인 베르누이 실험을 mm번 수행할 때 성공 횟수의 확률분포
  • 매개변수는 ppmm
profile
Hi, there 👋

0개의 댓글

관련 채용 정보