딥러닝은 확률론 기반의 기계학습 이론에 바탕을 두고 있다.
기계학습에서 사용하는 loss function들의 작동 원리는 데이터 공간을 통계적으로 해석해서 유도
예를들어, 회귀 분석에서 loss function인 노름은 예측오차의 분산을 가장 최소화 하는 방향으로 학습하게 된다.
분류 문제의 cross entropy는 모델 예측의 불확실성을 최소화 하는 방향으로 학습하게 된다.
데이터공간을 라 표기하고 는 데이터공간에서 데이터를 추출하는 분포
실제로 데이터만 가지고 확률분포를 아는것은 불가능하기 때문에 기계학습을 이용한다.
데이터는 확률변수로 라 표기한다.
확률변수는 확률분포 에 따라 이산형(discrete)과 연속형(continuous)확률변수로 구분하게 된다.
보통 데이터공간에 의해 결정되는 것으로 오해하지만 확률분포에 의해 결정된다.
예를들어, 데이터공간이 정수집합이라고 한다면 이산형 확률변수라고 정의를 하겠지만 실수집합이라고 해서 꼭 연속형으로 생각할 필요는 없다.
ex) -0.5와 0.5 중 선택을 해야하는 상황
이산형 확률변수는 확률변수가 가질 수 있는 경우의 수를 모두 고려하여 확률을 더해 모델링 한다. 확률질량함수라고 한다.
결합분포 는 를 모델링한다.
는 입력 에 대한 주변확률분포로 y에 대한 정보를 주진 않는다.
에 대한 주변확률분포는 반대로 에 대해 전부 더해주거나 적분해주면 구할 수 있다.
조건부확률분포 는 데이터 공간에서 입력 와 출력 사이의 관계를 모델링한다.
는 특정 클래스가 주어진 조건에서 데이터의 확률분포를 보여준다.
조건부확률 는 입력변수 에 대해 정답이 일 확률을 의미
로지스틱 회귀에서 사용한 선형모델과 소프트맥스 함수의 결합은 데이터에서 추출된 패턴을 기반으로 확률을 해석하는데 사용된다.
기계학습의 많은 문제들은 확률분포를 명시적으로 모르는 경우가 대부분이다.
확률분포를 모를 때 데이터를 이용하여 기대값을 계산하려면 몬테카를로 샘플링 방법을 사용해야 한다.
몬테카를로는 이산형, 연속형 상관없이 성립한다.
몬테카를로 샘플링은 독립추출만 보장된다면 대수의 법칙에 의해 수렴성을 보장한다.
몬테카를로 샘플링은 적절한 샘플사이즈를 선택해야 근사값을 구할 수 있다.