인공지능 및 기계학습 개론 1 - 1주차 MLE, MAP

jy.Hyun·2024년 7월 30일

기계학습 개론1

목록 보기
1/8

edwith에 올라와있는 문인철 교수님의 인공지능 및 기게학습 개론1을 공부하여 정리한 내용입니다.

시작하기 전 생각

AI 관련 공부를 하긴 했는데 생각보다 체계와 기초가 모자른 느낌이 많이 들어서 Machine Learning의 기초적인 부분을 자세하게 짚어주는 문인철 교수님의 인공지능 및 기계학습 개론 시리즈들을 듣고 정리해보기로 했다. 개인적인 느낌으로는 아직 1주차밖에 안됐지만 머리속에서 떠돌던 지식들이 조금씩 순서에 맞게 들어가는 느낌이 들어서 추천할만한 강의인 거 같다.

Motivation

Types of Machine learning

Supervised Learning

  • 입력 데이터에 대한 정답을 알고 그를 함께 제공할 수 있을 때 사용하는 방법이다.
  • 예시) Spam filtering, Automatic grading, Automatic Categorization
  • 대표적인 방법은 ClassificationRegression
    - 둘의 차이점은 Classification이산적인 값(discrete dependent value)을 예측하는 데 사용되고,
    - Regression연속적인 값(continuous dependent value)를 예측하는 데 사용된다.

Unsupervised Learning

  • 입력 데이터만을 제공할 수 있을 때 사용하는 방법이다.
  • 예시) Discovering clusters, Discovering latent factors, Discovering graph structures
  • 대표적인 방법은 ClusteringFiltering
    - Clustering: 인스턴스가 어떤 집합에 소속되어있는지 추정
    - Filtering: 노이즈가 섞여있는 신호들 사이에서 관련성이 높은 정보를 선택하는 과정

Reinforcement Learning

강의에서 다루지는 않았지만 간략하게 설명하자면

  • 목표를 알지만 어떻게 목표에 도달하는지를 모를 때 사용하는 방법이다.

MLE

Binomial Distribution

  • n번의 독립적인 베르누이 시행(yes/no로 나뉘는 실험)을 했을 때 이산 확률 변수가 가지는 확률 분포를 Binomial Distribution이라고 한다.

  • i.i.d(Independent events,Identically distributed)

  • 만약 압정을 5번 던져 3번의 앞면, 2번의 뒷면이 나왔다면 예시와 이를 일반화한 식은 아래와 같다.

  • 여기서 θ\theta를 가정했을 때 D의 Likelihood는 다음과 같다. P(Dθ)=θaH(1θ)aTP ( D | \theta)=\theta^{a_{H}} ( 1-\theta)^{a_{T}}

  • 하지만 우리는 압정 도박의 결과가 θ\theta라는 이항 분포를 따른다고 가설을 세워 이를 추정했을 뿐이다.

  • 어떻게 하면 우리가 세운 가설을 강하게 만들 수 있을까? 즉, 어떻게 하면 best candiate of θ\theta를 찾을 수 있을까?

  • 이를 위해서 Maximum Likelihood Estimation (MLE)라는 확률의 추론이 등장한다.

  • MLE는 우리가 관측된 데이터들의 등장할 확률을 최대화하는 θ\theta를 찾아 내는 것이다.

θ^=argmaxθP(Dθ)\widehat{\theta}=a r g m a x_{\theta} P ( D | \theta)
  • P(Dθ)P ( D | \theta)를 넣어 정리하면 식이 너무 복잡하기에 ln을 사용한다.
    $\begin{array} {c} {{{\hat{\theta}=a r g m a x_{\theta} l n P ( D | \theta)=a r g m a x_{\theta} \operatorname{l n} \{\theta^{a_{H}} ( 1-\theta)^{a_{T}} \}}}} \\ {{{=a r g m a x_{\theta} \{a_{H} \, l n \theta+a_{T} \operatorname{l n} ( 1-\theta) \}}}} \\ \end{array} $

  • Maximization problem이므로 미분이 0이 되는 θ\theta를 구한다. 그리고 이를 정리하면

  • MLE관점으로 본 최적화된 θ^\widehat{\theta}이 나오게 된다.

Simple Error bound

  • 우리는 θ\theta를 추정을 한 것인지 완전한 θ\theta를 구한 것이 아니다.

  • error bound가 커질수록 확률을 작아진다.(error가 줄어든다.)

  • 시행(N)을 많이 할수록 error가 감소한다.

Probably Approximate Correct(PAC) Learning

  • 이를 PAC Learning 이라고 한다.

  • 오차범위내에서 θ^\widehat{\theta}가 맞다는 것이 PAC Learning의 결과물이다.

  • 하지만 다른 관점은 없을까? 다른 관점으로 본 것이 MAP이다.

MAP

Incorporating Prior Knowledge

  • MAP는 베이즈 통계학에 기반을 둔다. 베이즈 통계를 잘 모른다면 여기를 참고하자.
  • 베이즈 통계에서 확률은 새로운 정보를 토대로 사전 확률을 사후 확률로 갱신한다는 관점으로 본다.
P(θD)=P(Dθ)P(θ)P(D)Posterior=Likelihood×PriorKnowledgeNormalizing  Constant\begin{array} {l} {{{P ( \theta| D )=\frac{P ( D | \theta) P ( \theta)} {P ( D )}}}} \\ {{{P o s t e r i o r=\frac{L i k e l i h o o d \times P r i o r K n o w l e d g e} {N o r m a l i z i n g \; C o n s t a n t}}}} \\ \end{array}
  • 이때 Normalizing Constant는 θ\theta에 영향을 받지 않기에 제외할 수 있다.
P(θD)P(Dθ)P(θ)P(Dθ)=θaH(1θ)aTP(θ)= ???\begin{array} {l} P( \theta| D ) \propto P ( D | \theta) P ( \theta) \\ P ( D | \theta)=\theta^{a_{H}} ( 1-\theta)^{a_{T}} \\ P(\theta) = \ ??? \end{array}
  • P(Dθ)P ( D | \theta)는 Binomial Distribution을 따르지만 P(θ)P(\theta)는 어떤 Distribution을 따른다고 할 수 있을까?
  • 이때 사용되는 것이 Beta Distribution이다.
  • Beta distribution은 0~1 사이의 분포를 가지므로 확률을 나타내기에 좋다. 이를 통해 정리해보면
  • Binomial Distribution은 HHHTH^T라는 파라미터가 필요했지만 Beta distribution은 α\alphaβ\beta를 파라미터로 필요한다.
  • MLE에서 했던 것처럼 이를 통해 θ^\widehat{\theta}를 추정해보면
  • MLE와의 차이점은 사전 정보를 활용가능하다는 점이다.
  • MLE는 Likelihood를 최대화하는 것이지만 MAP는 Posterior를 maximize 하는 것이다.
  • 그럼 MLE와 MAP의 결과는 다른 것일까?
  • 그러지는 않다. 시행이 커질수록 사전 정보인 α\alphaβ\beta 의 영향력이 점점 줄어들어 MLE와 MAP값을 같아지게 된다.
  • 하지만 시행이 작은 경우에는 α\alphaβ\beta가 중요해지게 된다.

Probability and Distribution

이 부분은 추후에 statistics 110에서 더 자세하게 다뤄보겠다.

Quiz

Q1. 머신 러닝 기법은 크게 3가지 유형으로 분류됩니다. 다음 설명에 해당하는 머신 러닝 기법은 무엇일까요? (설명) 클래스 라벨이 정해져 있는 데이터 인스턴스(example)들로 학습을 하는 기법

정답: Supervised Learning
클래스 라벨이 정해져있는 즉 정답이 있는 학습 기법이기 때문에 Supervised Learning이 정답이다.

Q2. 동전을 10번 던져서 9번이 앞면이 나왔다면 이 동전의 앞면이 나올 확률( pHp_H)을 최대우도추정치(Maximum Likelihood Estimation)로 추정했을 때  pH^=9/10=0.9\hat{p_H}=9/10=0.9로 추정할 수 있을 것입니다. 만약  pHp_H가 베타 분포(𝛼=7, 𝛽=5)를 사전 분포로서 따른다면,  pHp_H를 최대사후추정했을 때 추정치는 얼마일까요(Maximum a Posteriori Estimation)?

정답: 0.75
MAP=9+719+7+1+52=0.75MAP = \frac{9 + 7 - 1}{9 + 7 + 1 + 5 - 2} = 0.75

Q3. 모수(parameter)를 𝜃, 주어진 데이터를 𝑦라 할 때 다음 중 적절히 명명한 것은?

  • 𝑝(𝑦|𝜃): likelihood
  • 𝑝(𝑦): posterior normalizing constant
  • 𝑝(𝜃|𝑦): prior (knowledge) Posterior
  • 𝑝(𝜃): normalizing constant Prior Knowledge

0개의 댓글