기계학습 내용은 개인적인 공부를 위해서 정리하는 용도이다. 개인적으로 인터넷을 통해서 공부한 내용을 포함하여 POSTECH의 옥정슬 교수님의 기계학습 강의를 기반으로 정리할 것이다. What is Machine Learning? 기계학습, 영어로는 machine le
Supervised Learning 지도 학습이라 불리는 supervised learning은 input 데이터와 이에 대응하는 정답을 함께 입력으로 받는다. 여기서 정답은 label이라고도 하는데, 주어진 input 데이터와 label로 부터 model을 학습시켜서
ML and Probability Theory Machine Learning에서 확률 이론은 꽤 중요한 부분이다. 이전에 machine learning은 데이터로부터 볼 수 있는 특정한 pattern을 학습하는 것으로부터 일종의 function을 만드는 과정이라고 했다
Expectations and Moments 이번에는 probability distribution을 나타내는 척도들에 대해서 알아보려고 한다. Expectation 일상 생활 속에서 사람들은 어떤 확률적인 사건이 발생하려고 하면 자신에게 유리한 방향으로 생각하는 경향
Sample Mean Random variable의 합은 machine learning에서 흥미로운 내용이다. 흔히 어떤 집단의 평균을 추정하기 위해서 우리는 다음의 sample mean을 사용할 수 있다. $$E(X) \approx \frac{1}{n}\sum{i=1
확률 이론에 대해서 어느정도 알았다고 하더라도, 실제로 이러한 확률 이론이 어떻게 적용이 되고 사용이 되는지 의아할 수 있다. 그래서 이제 확률 이론이 실제로 machine learning이나 다른 분야에 어떻게 적용이 되는지 알아보려고 한다. 기본적이지만 확률 이론을
Maximum A Posteriori(MAP) MLE는 model parameter $$\theta$$가 주어졌을 때 모든 observation에 대한 일종의 확률을 나타내는 likelihood의 maximizer를 찾는 optimization problem으로 볼 수
Bayesian Inference Bayesian inference는 MLE와 MAP와는 다른 방법으로, model parameter를 추정하고자 할 때 가장 근본이 되는 학습에 사용되는 방법이다. Model parameter $$\theta$$를 추정하고 random
Regression Density estimation을 통해서 관찰된 data로부터 model parameter를 추정할 수 있었고, 이번에는 본격적으로 구체적인 특정 machine learning 기법에 대해서 알아보고자 한다. 가장 먼저 linear regressi
Overfitting Issue and Regularization 이전에 LS method와 MLE를 연결시킬 수 있었고, density estimation에서 MAP를 이야기했을 때 등장했던 prior의 관점을 이번에는 linear regression에 접목해서 생각
Non-Linear Regression 지금까지는 regressor task에 대한 기본적인 model에 대해서 알아보았다. 특히 linear regression을 보면서 LS method와 MLE를 연결시켜 보았으며 이때의 noise는 평균이 0인 additive G
Recap) Regression Machine learning에서 regression task는 conditional expecatation $$\mathbb{E}[y|x]$$를 찾는 것이다. 이는 $$d$$차원의 input과 $$d'$$ 차원의 output을 mapp
A Systemic Solver: Gradient-Based Optimization Logistic regression의 optimization problem은 안타깝게도 closed form solution이 존재하지 않는다. 그래서 gradient descent 방
Information은 관점을 어떻게 하는지에 따라 다양하게 해석할 수 있다. 컴퓨터의 입장에서 information이라고 하면 data와 관련이 가장 있을 것이다. Information은 어느 분야에서 어떻게 해석하든지 간에 굉장히 추상적인 개념일 것이다. 이번에 관
Maximum Margin Classifier Support vector machine(SVM)은 classification의 유명한 방법 중 하나이다. Classification을 위해서 classifier를 어떻게 만들지에 대해서 알아볼 것이다. Recap) Re
Binary Support Vector Machine(SVM) 지금부터는 KKT condition을 사용해서 binary SVM의 solution에 대해서 알아볼 것이다. Max Margin Classifier: Primal Form Max margin classif
Binary classification은 보통 yes / no로 대답할 수 있는 task에 대해서 이루어진다. 가령, image classification에서 이미지가 고양이인가 아닌가에 대해서 분류하기도 하고, edge detection에서 주어진 픽셀이 경계선에 위
오늘날 유명한 neural model에 관해서 볼 것이다. Linear model 말고 neural network를 왜 사용하는지에 대해서 중점적으로 보려고 한다. Loss Functions for Binary Classification 우선 binary classi
How to Train MLP? Backpropagation MLP를 train 하기 위해서 가장 유명한 방법은 backpropagation이다. 예전부터 사용된 방법이지만 최근에도 많이 사용되고 있다. 먼저 backpropagation의 아이디어부터해서 그 방법이 어
여러 model과 ML framework에 대해서 지금까지는 supervised learning에 집중했었다. Linear model, perceptron, SVM, neural network 등 많은 modele들에 대해서 알아보았다. 이렇게 많은 model들에 대해
Combining Simple Models 여러 model을 조합해보는 것도 좋은 model을 build하기 위한 또 다른 방법이 될 수 있다. 현실에서는 물리적인 제약들이 많기 때문에 간단한 model들을 조합하는 것도 좋은 방법이 된다. 대표적인 예시로는 AdaBo
Statistical Graphical Model Graphical model을 공부하기 위한 동기를 부여하기 위해서 statical model을 다시 보려고 한다. Statistical model은 sample data의 생성에 대해서 설명하고 이해하기 위한 일종의
Conditional Independence 지금부터는 우리가 graphical model을 그릴 때 무엇을 할 수 있는지에 대해 알아보고자 한다. 그 중 하나로 graphcial model을 그리고 conditional independence를 확인할 수 있다. Z가
Two Important Problems Graphical model은 machine learning task를 다루는데 있어서 매우 유용하다. 특히 machine learning에서 우리는 종종 marginalization과 maximization을 다룰 필요가 있다
이제 우리가 해결하고자 하는 남은 문제는 data로부터 어떻게 graphical model을 구성하는지이다. 지금까지는 graphical model이 주어진 상황에 대해서 생각해왔다. 그리고 이로부터 algorithm을 build하고 conditional indepen
Unsupervised Learning Unsupervised learning의 예로는 clustering, feature selection, dimensionality reduction, generative model 등이 있다. 여기서는 어떠한 label도 가지지
Estimation with Latent Variables EM algorithm은 일부 variable이 observable하고 일부는 latent인 경우에 유용하게 사용된다. 왜냐하면 만약 모든 variable이 observable 하면 간단하게 likelihood
Example of Unsupervised Learning 이번에는 unsupervised learning의 2번째 application인 dimensionality reduction에 대해서 알아볼 것이다. Curse of Dimensionality 본격적으로 들어가기 전에 dimensionality reduction의 동기에 대해서 알아보고 갈 것이다...
PCA를 eigenvalue decomposition으로 이해할 수 있고, 2개의 의미를 가지고 있다. 하나는 maximum variance이고 다른 하나는 minimum error이다. 그리고 이전에 정말로 높은 차원의 PCA를 수행하기 위해 계산적으로 더 그럴듯한
From Subspace to Nonlinear Manifold 위와 같이 S 모양의 data가 3차원 상에 존재한다고 해보자. 그러면 PCA가 3차원의 data를 2차원으로 줄여줄 것이다. 그러면 우상단과 같은 projection 결과가 만들어 질 것이다. 원래의
Generative Models Generative model의 목적은 training data distribution $$P_{data}(x)$$와 관련있다. Training data가 주어졌을 때, 동일한 distribution으로부터 새로운 sample을 만들고
GAN은 VAE와 더불어 generative model의 또 다른 예시로서, image나 data를 만들어내는 유망한 방법 중 하나이다. Focus on Generation VAE를 training하는 것은 non-trivial summation을 필요로 하고, 때때
Markov Property and Definition of MDP Markov decision process(MDP)는 reinforcement learning에서 가장 근본이 되고 기본적인 model이다. Agent-Environment Interface Deci
Value Function and Policy Evaluation(Prediction) Value function이 주어졌을 때 non-trivial analysis를 이용해서 바로 expectation을 구할 수 있고, 이는 MDP의 종류와 주어지는 system에 의
Welcome to Reinforcement Learning 이번에는 어떻게 kernel $$p$$ 나 MDP를 모른다는 가정하에 optimal policy를 추정할 수 있을지에 대해서 알아볼 것이다. Policy iteration, value iteration alg