[AI Math] 확률론

hyunsooo·2022년 9월 23일
0

딥러닝에서의 확률론

  • 딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.

  • 기계학습에서 사용하는 loss function들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도

  • 예를들어, 회귀 분석에서 loss function인 L2L_2노름은 예측오차의 분산을 가장 최소화 하는 방향으로 학습하게 된다.

  • 분류 문제의 cross entropy는 모델 예측의 불확실성을 최소화 하는 방향으로 학습하게 된다.

확률분포

  • 데이터공간을 X×Y\mathcal{X} \times \mathcal{Y}라 표기하고 D\mathcal{D}는 데이터공간에서 데이터를 추출하는 분포

  • 실제로 데이터만 가지고 확률분포D\mathcal{D}를 아는것은 불가능하기 때문에 기계학습을 이용한다.

  • 데이터는 확률변수로 (x,y)D(x,y) \sim \mathcal{D}라 표기한다.

이산확률변수 vs 연속확률변수

  • 확률변수는 확률분포 D\mathcal{D}에 따라 이산형(discrete)과 연속형(continuous)확률변수로 구분하게 된다.

  • 보통 데이터공간에 의해 결정되는 것으로 오해하지만 확률분포에 의해 결정된다.

  • 예를들어, 데이터공간이 정수집합이라고 한다면 이산형 확률변수라고 정의를 하겠지만 실수집합이라고 해서 꼭 연속형으로 생각할 필요는 없다.
    ex) -0.5와 0.5 중 선택을 해야하는 상황

  • 이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해 모델링 한다. 확률질량함수라고 한다.

P(XA)=xAP(X=x)\mathbb{P}(X \in A) = \sum_{x \in A}P(X = x)

  • 연속형 확률변수는 데이터 공간에 정의된 확률변수의 밀도(density)위에서 적분을 통해 모델링 한다.
P(XA)=xAP(X)dx\mathbb{P}(X \in A) = \int_{x \in A}P(X)dx
  • 밀도는 누적확률분포의 변화율을 모델링하며 확률로 해석하면 안된다.

  • 결합분포 P(x,y)P(x,y)D\mathcal{D}를 모델링한다.

  • P(x)P(x)는 입력 xx에 대한 주변확률분포로 y에 대한 정보를 주진 않는다.

P(x)=yP(x,y)P(x) = \sum_{y}P(x,y)\\
P(x)=yP(x,y)dyP(x) = \int_yP(x,y)dy


  • yy에 대한 주변확률분포는 반대로 xx에 대해 전부 더해주거나 적분해주면 구할 수 있다.

  • 조건부확률분포 P(xy)P(x|y)는 데이터 공간에서 입력 xx와 출력 yy사이의 관계를 모델링한다.

  • P(xy)P(x|y)는 특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여준다.

조건부확률과 기계학습

  • 조건부확률 P(yx)P(y|x)는 입력변수 xx에 대해 정답이 yy일 확률을 의미

  • 로지스틱 회귀에서 사용한 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된다.


  • 분류 문제에 softmax(Wϕ+b)softmax(W\phi+b)는 데이터 xx로부터 추출된 특징패턴ϕ(x)\phi(x)과 가중치행렬 WW을 통해 조건부확률 P(yx)P(y|x)를 계산한다.

  • 회귀 문제의 경우 보통 연속형이기 때문에 조건부기대값 E[yx]\mathbb{E}[y|x]를 추정한다.
EyP(yx)[yx]=yP(yx)dy\mathbb{E}_{y \sim P(y|x)}[y|x] = \int_yP(y|x)dy
  • 회귀문제에서 조건부기대값을 사용하는 이유는 지난 시간에 배운 L2L_2노름을 최소화하는 함수와 일치하기 때문이다.

몬테카를로 샘플링

  • 기계학습의 많은 문제들은 확률분포를 명시적으로 모르는 경우가 대부분이다.

  • 확률분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로 샘플링 방법을 사용해야 한다.

EyP(x)[f(x)]1Ni=1Nf(x(i)),x(i)P(x)\mathbb{E}_{y \sim P(x)}[f(x)] \approx \frac{1}{N} \sum_{i=1}^{N}f(x^{(i)}), x^{(i)} \sim P(x)
  • 몬테카를로는 이산형, 연속형 상관없이 성립한다.

  • 몬테카를로 샘플링은 독립추출만 보장된다면 대수의 법칙에 의해 수렴성을 보장한다.

  • 몬테카를로 샘플링은 적절한 샘플사이즈를 선택해야 근사값을 구할 수 있다.

profile
지식 공유

0개의 댓글