Data Big data는 전세계적으로 굉장히 중요한 것이 되었다. Data는 모든 것을 알고 있으며 매일 같이 새로운 data는 만들어지고 있다. Big data는 많은 영역에서 등장했고, 약 15년 전에는 database 분야가 computer science 분야에
Data = Data Objects + Attributes Data는 data object들과 이들의 attribute들을 모아놓은 것이다. 여기서 data object는 data sample 혹은 example이라고 부르며, data mining이나 data scie
이전까지는 attribute에 초점을 맞춰서 알아보았다면, 이번에는 data 자체에 초점을 맞춰보고자 한다.$$N$$개의 object와 $$P$$개의 attribute를 가지는 data가 있다고 해보자. 이러한 경우 data table이 $$N\\times P$$로 만
Data Preprocessing Data quality와 관련된 여러 issue들을 해결하기 위해서 data preprocessing이 필요하다. Data preprocessing을 하게 되면 estimation이나 prediction task에서도 좋은 결과를 만들
Similarity and Dissimilarity 어떠한 두 가지가 비슷하다고 한다는 것은 만약 그것들을 quantification 할 수 있다면, 이들이 서로 다른지 아닌지도 quantification 할 수 있다. Similarity와 dissimilarity는
Similarity Between Binary Vectors 이번에는 binary vector를 가지고 similarity를 알아보고자 한다. Binary vector이기 때문에 그 값은 0 아니면 1로 존재할 것이고, 이는 categorical attribute의 특
Information Based Measures Information measure에 대해서 알아보기 전에 간단하게 entropy에 대해서 설명하면 오늘 밖에 비가 올지 안올지와 같은 불확실한 상황에 대한 uncertainty를 설명하는 척도이다. 그리고 이러한 ent
Unsupervised Learning Representation of Objects in Machine Learning Data로부터 어떠한 것들을 학습할 수 있는지 알아보려고 한다. 학습의 경우 크게는 supervised learning과 unsupervised
Supervised Learning Process Dataset with Labels Supervised learning은 data $$x=(x1, x2, \dots, xN), xi\in\mathbb{R}^k$$와 label $$yi$$가 주어졌을 때, data 안에
Supervised learning에서 prediction을 한다고 하고 $$a_1, a_2, \\dots, a_p$$와 같이 무수히 많은 attribute가 존재할 때 모든 attribute가 반드시 필요한 것은 아닐 것이다. 이러한 경우에 일부 attribute를
Classification Classification: Definition Decision tree는 classification을 하기 위한 방법인데, 우리는 decision tree를 알아보기 전에 먼저 classification에 대해서 알아보려고 한다. Trai
Test Conditions Methods for Expressing Test Conditions 우리는 이전에 split을 하는 기준과 관련해서 이야기했었다. 그래서 자세하게 이야기하기 전에 먼저 attribute type에 대해서 다시 살펴보고 갈 것이다. Bi
지금까지 decision tree나 Naive Bayes classfier와 같이 여러 classifier들에 대해서 알아보았다. 그리고 우리는 이러한 model들이 충분히 학습이 되었는지 확인할 필요가 있다. 그래서 이번에는 classifier와 같이 model들을
Training과 test를 진행할 때 우리는 model에 training set을 이용해서 학습시킨 뒤에 test set을 이용해서 성능을 평가하려고 하다보면 다음과 같은 matrix를 얻을 수 있을 것이다.
Decision tree뿐만 아니라 여러 다른 data mining algorithm들에는 저마다의 issue들이 존재한다. 이번에는 decision tree를 중심으로 data mining algorithm을 적용할 때 발생하는 issue들에 대해서 알아보려고 한다.
Neural network(NN) 혹은 artificial neural network(ANN)는 universal approximator로도 알려져있다. ANN은 거의 대부분의 function들을 approximation 시킬 수 있다. 이것이 ANN의 concept이
Gradient descent는 model이 복잡해질수록 함께 복잡해지는 경향을 보인다. 하지만 activation function과 error function을 잘 선택한다면 이 과정이 간단해질 수 있다. 그래서 activation function과 error fun
지금까지 perceptron이 무엇인지 알아봤으며, perceptron을 쌓아서 multi-layer NN를 구성할 수 있었다. Hidden layer을 많이 쌓아 깊이가 더 깊어진다면 deep NN가 되는 것이다. 이를 학습시키는 것은 결국 weight를 update
Bayes rule을 사용하는 statistical model인 Naive Bayes와 computer science인 neural network 각각을 알게 되었다면, 이번에는 이 둘이 사실상 같다는 사실을 알아보고자 한다. 이와 더불어 logistic regress
Principal component analysis(PCA)는 dimension reduction의 방법 중 하나로 매우 유명하다. 예를 들어 data의 dimension이 1000으로 매우 큰 경우에 dimension reduction을 통해서 2까지 줄이게 되면 우
Support Vector Machine(SVM)은 유명한 binary classifier 중 하나이다. Deep learning이 본격적으로 알려지기 전까지는 성능도 좋고 많이 사용되었다.SVM을 알아보기 전에 먼저 dot product가 무엇인지 알아야 한다. Do
지금까지 많은 data mining 기법들에 대해서 알아봤는데, 이번에는 이러한 기법들이 실제로 어떻게 text에 적용되는지 알아보고자 한다. Text가 핵심이기 때문에 우리는 많은 word가 존재하는 document가 있다고 가정해보려고 한다. 그리고 이러한 docu
이제 우리는 $$|V|$$ 차원의 vector space를 가지게 되었고, 이를 분석해보면 term들은 space에서 axis들에 해당하고 document는 이러한 space에서 point나 vector에 해당하게 된다. 그리고 term의 개수에 따라서 차원이 매우 커