인공지능 및 기계학습 개론 1 - 1주차 MLE, MAP

jy.Hyun·2024년 7월 30일

MLE Map PAC 강화학습 기계학습 개론 1 기계학습개론 베타분포 비지도학습 이항분포 지도학습

기계학습 개론1

목록 보기

1/8

edwith에 올라와있는 문인철 교수님의 인공지능 및 기게학습 개론1을 공부하여 정리한 내용입니다.

시작하기 전 생각

AI 관련 공부를 하긴 했는데 생각보다 체계와 기초가 모자른 느낌이 많이 들어서 Machine Learning의 기초적인 부분을 자세하게 짚어주는 문인철 교수님의 인공지능 및 기계학습 개론 시리즈들을 듣고 정리해보기로 했다. 개인적인 느낌으로는 아직 1주차밖에 안됐지만 머리속에서 떠돌던 지식들이 조금씩 순서에 맞게 들어가는 느낌이 들어서 추천할만한 강의인 거 같다.

Motivation

Types of Machine learning

Supervised Learning

입력 데이터에 대한 정답을 알고 그를 함께 제공할 수 있을 때 사용하는 방법이다.
예시) Spam filtering, Automatic grading, Automatic Categorization
대표적인 방법은 Classification과 Regression
- 둘의 차이점은 Classification은 이산적인 값(discrete dependent value)을 예측하는 데 사용되고,
- Regression은 연속적인 값(continuous dependent value)를 예측하는 데 사용된다.

Unsupervised Learning

입력 데이터만을 제공할 수 있을 때 사용하는 방법이다.
예시) Discovering clusters, Discovering latent factors, Discovering graph structures
대표적인 방법은 Clustering과 Filtering
- Clustering: 인스턴스가 어떤 집합에 소속되어있는지 추정
- Filtering: 노이즈가 섞여있는 신호들 사이에서 관련성이 높은 정보를 선택하는 과정

Reinforcement Learning

강의에서 다루지는 않았지만 간략하게 설명하자면

목표를 알지만 어떻게 목표에 도달하는지를 모를 때 사용하는 방법이다.

MLE

Binomial Distribution

n번의 독립적인 베르누이 시행(yes/no로 나뉘는 실험)을 했을 때 이산 확률 변수가 가지는 확률 분포를 Binomial Distribution이라고 한다.
i.i.d(Independent events,Identically distributed)
만약 압정을 5번 던져 3번의 앞면, 2번의 뒷면이 나왔다면 예시와 이를 일반화한 식은 아래와 같다.
여기서 $\theta$ 를 가정했을 때 D의 Likelihood는 다음과 같다. $P ( D | \theta)=\theta^{a_{H}} ( 1-\theta)^{a_{T}}$
하지만 우리는 압정 도박의 결과가 $\theta$ 라는 이항 분포를 따른다고 가설을 세워 이를 추정했을 뿐이다.
어떻게 하면 우리가 세운 가설을 강하게 만들 수 있을까? 즉, 어떻게 하면 best candiate of $\theta$ 를 찾을 수 있을까?
이를 위해서 Maximum Likelihood Estimation (MLE)라는 확률의 추론이 등장한다.
MLE는 우리가 관측된 데이터들의 등장할 확률을 최대화하는 $\theta$ 를 찾아 내는 것이다.

\widehat{\theta}=a r g m a x_{\theta} P ( D | \theta)

$P ( D | \theta)$ 를 넣어 정리하면 식이 너무 복잡하기에 ln을 사용한다.
$ $\begin{array} {c} {{{\hat{\theta}=a r g m a x_{\theta} l n P ( D | \theta)=a r g m a x_{\theta} \operatorname{l n} \{\theta^{a_{H}} ( 1-\theta)^{a_{T}} \}}}} \\ {{{=a r g m a x_{\theta} \{a_{H} \, l n \theta+a_{T} \operatorname{l n} ( 1-\theta) \}}}} \\ \end{array} $$
Maximization problem이므로 미분이 0이 되는 $\theta$ 를 구한다. 그리고 이를 정리하면
MLE관점으로 본 최적화된 $\widehat{\theta}$ 이 나오게 된다.

Simple Error bound

우리는 $\theta$ 를 추정을 한 것인지 완전한 $\theta$ 를 구한 것이 아니다.
error bound가 커질수록 확률을 작아진다.(error가 줄어든다.)
시행(N)을 많이 할수록 error가 감소한다.

Probably Approximate Correct(PAC) Learning

이를 PAC Learning 이라고 한다.
오차범위내에서 $\widehat{\theta}$ 가 맞다는 것이 PAC Learning의 결과물이다.
하지만 다른 관점은 없을까? 다른 관점으로 본 것이 MAP이다.

MAP

Incorporating Prior Knowledge

MAP는 베이즈 통계학에 기반을 둔다. 베이즈 통계를 잘 모른다면 여기를 참고하자.
베이즈 통계에서 확률은 새로운 정보를 토대로 사전 확률을 사후 확률로 갱신한다는 관점으로 본다.

\begin{array} {l} {{{P ( \theta| D )=\frac{P ( D | \theta) P ( \theta)} {P ( D )}}}} \\ {{{P o s t e r i o r=\frac{L i k e l i h o o d \times P r i o r K n o w l e d g e} {N o r m a l i z i n g \; C o n s t a n t}}}} \\ \end{array}

이때 Normalizing Constant는 $\theta$ 에 영향을 받지 않기에 제외할 수 있다.

\begin{array} {l} P( \theta| D ) \propto P ( D | \theta) P ( \theta) \\ P ( D | \theta)=\theta^{a_{H}} ( 1-\theta)^{a_{T}} \\ P(\theta) = \ ??? \end{array}

$P ( D | \theta)$ 는 Binomial Distribution을 따르지만 $P(\theta)$ 는 어떤 Distribution을 따른다고 할 수 있을까?
이때 사용되는 것이 Beta Distribution이다.
Beta distribution은 0~1 사이의 분포를 가지므로 확률을 나타내기에 좋다. 이를 통해 정리해보면
Binomial Distribution은 $H$ 와 $H^T$ 라는 파라미터가 필요했지만 Beta distribution은 $\alpha$ 와 $\beta$ 를 파라미터로 필요한다.
MLE에서 했던 것처럼 이를 통해 $\widehat{\theta}$ 를 추정해보면
MLE와의 차이점은 사전 정보를 활용가능하다는 점이다.
MLE는 Likelihood를 최대화하는 것이지만 MAP는 Posterior를 maximize 하는 것이다.
그럼 MLE와 MAP의 결과는 다른 것일까?
그러지는 않다. 시행이 커질수록 사전 정보인 $\alpha$ 와 $\beta$ 의 영향력이 점점 줄어들어 MLE와 MAP값을 같아지게 된다.
하지만 시행이 작은 경우에는 $\alpha$ 와 $\beta$ 가 중요해지게 된다.