모델의 두 가지 종류인 Deterministic 방법과 Generative 방법의 기본 개념과 차이점에 대해 공부했다.
Deterministic model이란 데이터 가 주어졌을 때 라벨 가 나타날 조건부 확률 에 대해 직접적으로 계산하는 모델을 뜻한다. 라벨 가 반드시 필요한 지도학습 (Supervised learning)에 속한다. 이 모델의 목표는 결정경계 (Decision boundray) 를 잘 학습하는 것이다.
Generative model에 비해 가정(hypothesis)가 단순한 편이며 학습 데이터가 충분하다면 좋은성능을 보인다. 선형회귀(Linear regression)과 로지스틱회귀(Logistic regression)이 대표적인 예시이다.
Gerenrative model이란 데이터 에 대한 분포를 두개의 확률모형 로부터 베이지안 이론을 활용하여 를 간접적으로 계산하는 모델을 뜻한다. 라벨 의 유무에 따라 지도학습 (e.g., 선형판별분석 (Linear Discriminant Analysis)), 비지도학습 (e.g.,g Gaussian Mixture Model (GMM))으로 구분된다.
Deterministic model에 비해 가정이 복잡한 편이며, 실제 현상과 잘 맞지 않는다면 성능이 대폭 감소한다. 하지만 가정이 좋다면 적은 데이터로도 좋은 성능을 보인다. 이 모델의 목표는 범주의 분포 (distrbution) 을 학습하는 것이다. 아울러 도 학습하기 때문에 라벨 로부터 데이터 를 샘플링 할 수도 있다.
데이터 확률 분포 란 특정 데이터 가 나타날 확률을 뜻한다. 예를 들어 대한민국 남자 키에 대한 데이터 있다고 해보자. 아래 그림에서처럼 가장 흔한 평균키 174cm는 에서처럼 높은 확률을 나타내는 반면 드문 키 188cm인 는 낮은 확률을 나타낸다. 만약 키가 212cm가 넘는다면 나타날 확률은 0에 가까워질 것이다.
generative model의 목적 가운데 하나는 데이터의 분포를 학습하는 것입니다. 다시 말해 우리가 구축하려는 모델에 데이터를 넣으면 실제 데이터의 확률에 가깝게 값을 반환하게끔 만들고 싶다는 이야기입니다. 이를 도식화한 그림은 다음과 같습니다.
이는 Deep generative model을 이용하여 달성할 수 있다. 딥러닝은 데이터의 분포를 모사하거나 벡터간 변환에 뛰어난 성능을 지니고 있기에 널리 사용되고 있다.
Deterministic 은 경계선을, Gerenrative 분포를 학습한다.
References
1. https://ratsgo.github.io/generative%20model/2017/12/17/compare/