AI 관련 공부를 하긴 했는데 생각보다 체계와 기초가 모자른 느낌이 많이 들어서 Machine Learning의 기초적인 부분을 자세하게 짚어주는 문인철 교수님의 인공지능 및 기계학습 개론 시리즈들을 듣고 정리해보기로 했다. 개인적인 느낌으로는 아직 1주차밖에 안됐지만 머리속에서 떠돌던 지식들이 조금씩 순서에 맞게 들어가는 느낌이 들어서 추천할만한 강의인 거 같다.
대표적인 방법은 Classification과 Regression
- 둘의 차이점은 Classification은 이산적인 값(discrete dependent value)을 예측하는 데 사용되고,
- Regression은 연속적인 값(continuous dependent value)를 예측하는 데 사용된다.
대표적인 방법은 Clustering과 Filtering
- Clustering: 인스턴스가 어떤 집합에 소속되어있는지 추정
- Filtering: 노이즈가 섞여있는 신호들 사이에서 관련성이 높은 정보를 선택하는 과정
Reinforcement Learning
강의에서 다루지는 않았지만 간략하게 설명하자면
목표를 알지만 어떻게 목표에 도달하는지를 모를 때 사용하는 방법이다.
MLE
Binomial Distribution
n번의 독립적인 베르누이 시행(yes/no로 나뉘는 실험)을 했을 때 이산 확률 변수가 가지는 확률 분포를 Binomial Distribution이라고 한다.
i.i.d(Independent events,Identically distributed)
만약 압정을 5번 던져 3번의 앞면, 2번의 뒷면이 나왔다면 예시와 이를 일반화한 식은 아래와 같다.
여기서 θ를 가정했을 때 D의 Likelihood는 다음과 같다. P(D∣θ)=θaH(1−θ)aT
하지만 우리는 압정 도박의 결과가 θ라는 이항 분포를 따른다고 가설을 세워 이를 추정했을 뿐이다.
어떻게 하면 우리가 세운 가설을 강하게 만들 수 있을까? 즉, 어떻게 하면 best candiate of θ를 찾을 수 있을까?
이를 위해서 Maximum Likelihood Estimation (MLE)라는 확률의 추론이 등장한다.
MLE는 우리가 관측된 데이터들의 등장할 확률을 최대화하는 θ를 찾아 내는 것이다.
θ=argmaxθP(D∣θ)
P(D∣θ)를 넣어 정리하면 식이 너무 복잡하기에 ln을 사용한다.
$\begin{array} {c} {{{\hat{\theta}=a r g m a x_{\theta} l n P ( D | \theta)=a r g m a x_{\theta} \operatorname{l n} \{\theta^{a_{H}} ( 1-\theta)^{a_{T}} \}}}} \\ {{{=a r g m a x_{\theta} \{a_{H} \, l n \theta+a_{T} \operatorname{l n} ( 1-\theta) \}}}} \\ \end{array} $
Maximization problem이므로 미분이 0이 되는 θ를 구한다. 그리고 이를 정리하면
MLE는 Likelihood를 최대화하는 것이지만 MAP는 Posterior를 maximize 하는 것이다.
그럼 MLE와 MAP의 결과는 다른 것일까?
그러지는 않다. 시행이 커질수록 사전 정보인 α와 β 의 영향력이 점점 줄어들어 MLE와 MAP값을 같아지게 된다.
하지만 시행이 작은 경우에는 α와 β가 중요해지게 된다.
Probability and Distribution
이 부분은 추후에 statistics 110에서 더 자세하게 다뤄보겠다.
Quiz
Q1. 머신 러닝 기법은 크게 3가지 유형으로 분류됩니다. 다음 설명에 해당하는 머신 러닝 기법은 무엇일까요? (설명) 클래스 라벨이 정해져 있는 데이터 인스턴스(example)들로 학습을 하는 기법
정답: Supervised Learning
클래스 라벨이 정해져있는 즉 정답이 있는 학습 기법이기 때문에 Supervised Learning이 정답이다.
Q2. 동전을 10번 던져서 9번이 앞면이 나왔다면 이 동전의 앞면이 나올 확률( pH)을 최대우도추정치(Maximum Likelihood Estimation)로 추정했을 때 pH^=9/10=0.9로 추정할 수 있을 것입니다. 만약 pH가 베타 분포(𝛼=7, 𝛽=5)를 사전 분포로서 따른다면, pH를 최대사후추정했을 때 추정치는 얼마일까요(Maximum a Posteriori Estimation)?
정답: 0.75 MAP=9+7+1+5−29+7−1=0.75
Q3. 모수(parameter)를 𝜃, 주어진 데이터를 𝑦라 할 때 다음 중 적절히 명명한 것은?