베이지안 확률론

선비Sunbei·2024년 6월 1일

Optimization

목록 보기
1/4

확률(probability)은 모든 일어날 수 있는 경우의 수 가운데 어떤 일이 일어날 가능성, 즉 범위가 [0,1]이다.

확률 분포(Probability Distribution)는 모든 가능한 결과들과 각 결과에 대응하는 확률을 나타내는 함수이다.

정리하면 확률은 단일 사건에 대한 값을 나타내지만, 확률분포는 모든 가능한 결과(확률)에 대한 '함수'를 의미한다.

P(A)=AU,AUP(A) = \frac{A}{U} , A \subset U

변수 x에 대한 P(x)가 확률 분포를 뜻하며, 특정 사건 A에 대한 P(A)는 확률을 의미한다.

P(x;θ)P(x;\theta)

  • 매개 변수 θ\theta에 대한 x의 확률분포 (pdf of x parameterized by θ\theta)
  • 매개 변수 θ\theta는 확률 변수일 수도 있고, 아닐 수도 있다.
  • x는 확률 변수이다.

P(xθ)P(x|\theta)

  • θ\theta가 주어졌을 때 x의 주건부 확률 분포(pdf of x given θ\theta)
  • x와 θ\theta는 반드시 확률 변수이다.

P(x,θ)P(x,\theta)

  • x, θ\theta가 동시에 발생할 결합 확률 분포(joint pdf of x, θ\theta)
  • x와 θ\theta는 반드시 확률 변수이다.
  • 두 확률 변수 x와 θ\theta는 일반적으로 서로 독립이 아니며 종속이다. (독립이면 P(x)P(θ\theta)로 작성하기에)
  • 곱규칙으로 다음과 같이 나타낼 수 있다. P(x,θ)=P(θx)P(x)P(x,\theta) = P(\theta|x)P(x)

Bayes Theory(베이지안 룰)

P(θX)=P(θ)f(Xθ)P(X)P(\theta|X) = \frac{P(\theta)f(X|\theta)}{P(X)}

θ\theta는 우리가 추정하고자 하는 매개변수를 뜻한다. θ\theta는 실제로는 고정된 값이지만, 우리는 이 값을 정확히 알지 못하기 때문에 불확실성을 갖고 추정하고 싶어하는 값이다.

X는 이미 갖고 있는(관측한) 관측 데이터이다. (X를 1회 관측한 데이터 x들에 대한 집합 데이터를 의미) 관측치 X는 우리가 추정하고 싶은 θ\theta에 대한 불확실성을 없애는 데이터로 사용된다.

P(θX)P(\theta|X) : posterior probability, 사후 확률

  • 사후 확률은 데이터 X를 관찰한 후의 θ\theta에 대해 업데이트 된 확률을 의미한다.
  • 데이터 X를 관측했을 때의 파라미터(θ\theta)의 확률이다.

P(xθ)P(x|\theta) : likelihood, 우도

  • 주어진 매개변수 θ\theta에서 데이터 X가 관찰될 확률을 의미한다. 이는 데이터가 특정 매개변수 값에서 얼마나 잘 설명되는지를 나타낸다.
  • 중요한 점은 우도가 조건부 확률의 형태를 취하고 있지만 실제로는 확률이 아니라 값이라는 점이다. 따라서 확률과는 다르게 범위는 [0,\infty]이다.
  • 값이 클수록 주어진 매개변수 θ\theta가 데이터 X에서 적합하다.

P(θ)P(\theta) : prior probability, 사전 확률

  • 사전 확률은 특정 매개변수 θ\theta에 대한 사전 지식을 의미한다.
  • 와닿지 않을 수 있는데, 업데이트를 하기 이전에 초기 값으로 생각하는 것이 적당하다.

P(X)P(X) : 증거(Evidence) 또는 주변확률(Marginal Probability)

  • 모든 가능한 θ\theta에 대해 데이터 X가 관찰될 전체 가능성을 얘기한다.
  • P(X)는 정규화 상수로서 사후 확률 P(θX)P(\theta|X)가 0과 1 사이의 값을 가지도록 정규화하는 역할이다. 따라서 우도의 범위가 [0,\infty]의 범위로 가능하다.
  • 일반적으로 최적화 시에 상수 취급한다. (추정하고자 하는 θ\theta와 무관하기 때문에)

예제

MLE vs MAP

MLE(Maximum Likelihood Estimation)

  • P(Xθ)P(X|\theta)가 최대가 되는 어떤 변수(θ\theta)를 찾는 방법이다.
  • X는 관측치이기에 고정되어 있고, 이러한 고정된 X를 잘 설명하는 θ\theta를 찾는 것이다.
  • 주로 계산의 편의를 위해서 조건부 독립임을 가정하고 로그를 취해 합산 연산으로 계산한다.
θ^MLE=arg maxθP(Xθ)=arg maxθi=1nP(xiθ)\hat{\theta}_{MLE} = \argmax_{\theta}P(X|\theta) = \argmax_\theta \prod_{i=1}^nP(x_i|\theta)

위 식에서 집합 X의 하위 원소 xix_i는 조건부 독립임을 가정한다.
조건부 독립임이 가정되면 아래와 같이 작성이 가능하기 때문이다.

P(Xθ)=P(x1,x2,x3,...,xnθ)=i=1nP(xiθ)P(X|\theta) = P(x_1, x_2, x_3, ... , x_n | \theta) = \prod_{i=1}^n P(x_i| \theta)

만약 조건부 독립이 가정되지 않으면 2번째과 3번째 항 사이의 동등함이 성립하지 않는다.

MAP(Maximum A Posteriori Estimation)

  • 사후 확률은 P(θX)P(\theta|X)가 최대가 되는 어떤 변수(θ\theta)를 찾는 방법이다.
  • P(x)는 정규화를 위한 상수이기에 비례식에서는 중요치 않아 우도와 사전 확률에 비례하게 찾는다. P(θX)P(Xθ)×P(θ)P(\theta|X) \propto P(X|\theta) \times P(\theta)
  • P(θ)P(\theta)가 모두 같은 값인 uniform distribution일 때 최적화할 때, MLE와 동일한 값을 갖는다.
  • 주로 계산의 편의를 위해서 조건부 독립임을 가정하고 로그를 취해 합산 연산으로 계산한다.
θ^MAP=arg maxθP(θX)=arg maxθi=1nP(θxi)\hat{\theta}_{MAP} = \argmax_{\theta}P(\theta|X) = \argmax_{\theta}\prod_{i=1}^nP(\theta|x_i)

MLE와 least square solution

최소 제곱법(least square solution)

  • 데이터에 대한 모델의 적합도를 평가하고 최적의 매개변수를 찾기 위해 사용되는 방법 중 하나이다.
  • 선형대수학에서의 최소 제곱법이다.
E=i=1n(xiAθ)2=(XAθ)2=(XAθ)T(XAθ)E = \sum_{i=1}^n(x_i - A\theta)^2 = (X - A\theta)^2 = (X-A\theta)^T(X-A\theta)

cost function E를 위와 같이 정의한다.
여기서 x는 관측 데이터, A는 파라미터 θ\theta를 x와 같은 유형의 데이터(차원)로 바꿔주는 함수이다.
여기서 θ\theta를 구하려고 한다.

Eθ=2AT(XAθ)=0\frac{\partial E}{\partial \theta} = -2A^T(X - A\theta) = 0

2차 (아래로 볼록) 함수인 E를 파라미터 θ\theta에 대해 미분한 값이 0이 되게 한다. (극솟값 찾기)
식을 정리하면 아래와 같이 나온다.

ATAθ=ATXA^TA\theta = A^TX

ATAA^TA가 역행렬을 구할 수 있을 시 넘기면 아래와 같은 식이 나온다.

θ=(ATA)1ATX\theta = (A^TA)^{-1}A^TX

이러한 방식으로 최적의 θ\theta 값을 구하는 방법이 최소 제곱법이다.

MLE와 최소 제곱법의 동등함

X=Aθ+εX = A\theta + \varepsilon, ε\varepsilon~N(0,σ2)N(0,\sigma^2)로 엡실론이 평균이 0, 분산이 σ2\sigma^2인 정규분포를 따른다고 가정하자. (엡실론은 가우시안 분포를 따르는 노이즈)
그럼 우도 함수는 다음과 같이 정규분포 식으로 표현할 수 있다.
(조건부 독립 가정)
(σi=σj,ij\sigma_i = \sigma_j , i \neq j 가정, σ\sigma로 이루어진 행렬 : \sum )

P(Xθ)=1(2π)n212exp(12(XAθ)T  1(XAθ))=i=1n(12πσ2exp((xiAθ)22σ2))P(X|\theta) = \frac{1}{(2\pi)^{\frac{n}{2}}\sum^{\frac{1}{2}}}\exp{(-\frac{1}{2}(X-A\theta)^T\sum \;^{-1}(X-A\theta))} \\ = \prod_{i=1}^n (\frac{1}{\sqrt{2\pi\sigma^2}}\exp{(-\frac{(x_i-A\theta)^2}{2\sigma^2})})

양변을 로그로 취하고 -1씩 곱한다. (negative log)

logP(Xθ)=n2log(2πσ2)+12σ2i=1n(xiAθ)2-\log P(X|\theta) = -\frac{n}{2}\log({2\pi\sigma^2}) + \frac{1}{2\sigma^2} \sum_{i=1}^{n}{(x_i-A\theta)^2}

σ\sigma는 상수이기 때문에 고정된 값이다.
따라서, (xiAθ)2\sum(x_i-A\theta)^2 를 제외하고는 고정된 값이므로, 해당 값만 최적화하면 된다.
원래 MLE는 Maximize 였지만 양변에 -1씩 곱했으므로 Minimize한다.
이는 최소 제곱법과 cost function이 같아진다.

arg minE=arg mini=1n(xiAθ)2\argmin E = \argmin \sum_{i=1}^n(x_i - A\theta)^2

Reference

https://niceguy1575.medium.com/mle%EC%99%80-map%EC%9D%98-%EC%B0%A8%EC%9D%B4-7d2cc0bee9c
https://sanghyu.tistory.com/10
https://alida.tistory.com/92

0개의 댓글