# data mining

[Computational Biology] Multiple Pattern Matching
What is Multiple Pattern Matching? Motivation >- Finding matches of multiple patterns from a text at the same time Finding all occurrences of multiple patterns at the same time in a DNA or protein se...

[데이터마이닝] Scoring, Term Weighting and Vector Space Model (VSM) 2
이제 우리는 $$|V|$$ 차원의 vector space를 가지게 되었고, 이를 분석해보면 term들은 space에서 axis들에 해당하고 document는 이러한 space에서 point나 vector에 해당하게 된다. 그리고 term의 개수에 따라서 차원이 매우 커

[데이터마이닝] Scoring, Term Weighting and Vector Space Model (VSM) 1
지금까지 많은 data mining 기법들에 대해서 알아봤는데, 이번에는 이러한 기법들이 실제로 어떻게 text에 적용되는지 알아보고자 한다. Text가 핵심이기 때문에 우리는 많은 word가 존재하는 document가 있다고 가정해보려고 한다. 그리고 이러한 docu

[데이터마이닝] Support Vector Machine (SVM)
Support Vector Machine(SVM)은 유명한 binary classifier 중 하나이다. Deep learning이 본격적으로 알려지기 전까지는 성능도 좋고 많이 사용되었다.SVM을 알아보기 전에 먼저 dot product가 무엇인지 알아야 한다. Do

[데이터마이닝] Principal Component Analysis (PCA)
Principal component analysis(PCA)는 dimension reduction의 방법 중 하나로 매우 유명하다. 예를 들어 data의 dimension이 1000으로 매우 큰 경우에 dimension reduction을 통해서 2까지 줄이게 되면 우

[데이터마이닝] Discriminative vs. Generative Learning
Bayes rule을 사용하는 statistical model인 Naive Bayes와 computer science인 neural network 각각을 알게 되었다면, 이번에는 이 둘이 사실상 같다는 사실을 알아보고자 한다. 이와 더불어 logistic regress

[데이터마이닝] Neural Network 3
지금까지 perceptron이 무엇인지 알아봤으며, perceptron을 쌓아서 multi-layer NN를 구성할 수 있었다. Hidden layer을 많이 쌓아 깊이가 더 깊어진다면 deep NN가 되는 것이다. 이를 학습시키는 것은 결국 weight를 update

[데이터마이닝] Neural Network 2
Gradient descent는 model이 복잡해질수록 함께 복잡해지는 경향을 보인다. 하지만 activation function과 error function을 잘 선택한다면 이 과정이 간단해질 수 있다. 그래서 activation function과 error fun

[데이터마이닝] Neural Network 1
Neural network(NN) 혹은 artificial neural network(ANN)는 universal approximator로도 알려져있다. ANN은 거의 대부분의 function들을 approximation 시킬 수 있다. 이것이 ANN의 concept이
데이터마이닝 자기평가 - Cluster Analysis
intra-cluster distance와 inter-cluster distance의 차이를 설명하시오 cluster analysis에서는 data object 들에 대해 intra-cluster distance와 inter-cluster distance를 모두 고려

데이터 수집의 기록
청천병력 같은 교수님의 말씀..." 교수님, kaggle만큼 좋은 데이터 저장소는 없어요...."자, 본격적인 팀프로젝트 시즌이 왔다.데이터 분석의 시작은 자고로 데이터를 찾는것 부터 시작이니까 데이터 수집의 기록을 적어본다.예전에 스타벅스 위치 데이터 파이썬 소스코드

[데이터마이닝] Issues in Decision Tree and Other Algorithms
Decision tree뿐만 아니라 여러 다른 data mining algorithm들에는 저마다의 issue들이 존재한다. 이번에는 decision tree를 중심으로 data mining algorithm을 적용할 때 발생하는 issue들에 대해서 알아보려고 한다.

[데이터마이닝] Evaluating Machine Learning Methods 2
Training과 test를 진행할 때 우리는 model에 training set을 이용해서 학습시킨 뒤에 test set을 이용해서 성능을 평가하려고 하다보면 다음과 같은 matrix를 얻을 수 있을 것이다.

[데이터마이닝] Evaluating Machine Learning Methods 1
지금까지 decision tree나 Naive Bayes classfier와 같이 여러 classifier들에 대해서 알아보았다. 그리고 우리는 이러한 model들이 충분히 학습이 되었는지 확인할 필요가 있다. 그래서 이번에는 classifier와 같이 model들을
What Is Data Mining And What Is The Difference Between Web Scraping And Data Mining?
Data mining and data scraping may appear to be interchangeable terms. Data mining is sometimes misinterpreted as the technique of getting information

[데이터마이닝] Decision Tree - How to Split and Best Split
Test Conditions Methods for Expressing Test Conditions 우리는 이전에 split을 하는 기준과 관련해서 이야기했었다. 그래서 자세하게 이야기하기 전에 먼저 attribute type에 대해서 다시 살펴보고 갈 것이다. Bi

[데이터마이닝] Decision Tree - Design Decision Tree Induction
Classification Classification: Definition Decision tree는 classification을 하기 위한 방법인데, 우리는 decision tree를 알아보기 전에 먼저 classification에 대해서 알아보려고 한다. Trai

[데이터마이닝] Linear Regression and Regularization
Supervised learning에서 prediction을 한다고 하고 $$a_1, a_2, \\dots, a_p$$와 같이 무수히 많은 attribute가 존재할 때 모든 attribute가 반드시 필요한 것은 아닐 것이다. 이러한 경우에 일부 attribute를