# data mining

35개의 포스트
post-thumbnail

[데이터마이닝] Scoring, Term Weighting and Vector Space Model (VSM) 2

이제 우리는 $$|V|$$ 차원의 vector space를 가지게 되었고, 이를 분석해보면 term들은 space에서 axis들에 해당하고 document는 이러한 space에서 point나 vector에 해당하게 된다. 그리고 term의 개수에 따라서 차원이 매우 커

2022년 6월 4일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Scoring, Term Weighting and Vector Space Model (VSM) 1

지금까지 많은 data mining 기법들에 대해서 알아봤는데, 이번에는 이러한 기법들이 실제로 어떻게 text에 적용되는지 알아보고자 한다. Text가 핵심이기 때문에 우리는 많은 word가 존재하는 document가 있다고 가정해보려고 한다. 그리고 이러한 docu

2022년 5월 26일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Support Vector Machine (SVM)

Support Vector Machine(SVM)은 유명한 binary classifier 중 하나이다. Deep learning이 본격적으로 알려지기 전까지는 성능도 좋고 많이 사용되었다.SVM을 알아보기 전에 먼저 dot product가 무엇인지 알아야 한다. Do

2022년 5월 22일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Principal Component Analysis (PCA)

Principal component analysis(PCA)는 dimension reduction의 방법 중 하나로 매우 유명하다. 예를 들어 data의 dimension이 1000으로 매우 큰 경우에 dimension reduction을 통해서 2까지 줄이게 되면 우

2022년 5월 22일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Discriminative vs. Generative Learning

Bayes rule을 사용하는 statistical model인 Naive Bayes와 computer science인 neural network 각각을 알게 되었다면, 이번에는 이 둘이 사실상 같다는 사실을 알아보고자 한다. 이와 더불어 logistic regress

2022년 5월 11일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Neural Network 3

지금까지 perceptron이 무엇인지 알아봤으며, perceptron을 쌓아서 multi-layer NN를 구성할 수 있었다. Hidden layer을 많이 쌓아 깊이가 더 깊어진다면 deep NN가 되는 것이다. 이를 학습시키는 것은 결국 weight를 update

2022년 5월 5일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Neural Network 2

Gradient descent는 model이 복잡해질수록 함께 복잡해지는 경향을 보인다. 하지만 activation function과 error function을 잘 선택한다면 이 과정이 간단해질 수 있다. 그래서 activation function과 error fun

2022년 5월 5일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Neural Network 1

Neural network(NN) 혹은 artificial neural network(ANN)는 universal approximator로도 알려져있다. ANN은 거의 대부분의 function들을 approximation 시킬 수 있다. 이것이 ANN의 concept이

2022년 5월 5일
·
0개의 댓글

데이터마이닝 자기평가 - Cluster Analysis

intra-cluster distance와 inter-cluster distance의 차이를 설명하시오 cluster analysis에서는 data object 들에 대해 intra-cluster distance와 inter-cluster distance를 모두 고려

2022년 5월 1일
·
0개의 댓글
post-thumbnail

데이터 수집의 기록

청천병력 같은 교수님의 말씀..." 교수님, kaggle만큼 좋은 데이터 저장소는 없어요...."자, 본격적인 팀프로젝트 시즌이 왔다.데이터 분석의 시작은 자고로 데이터를 찾는것 부터 시작이니까 데이터 수집의 기록을 적어본다.예전에 스타벅스 위치 데이터 파이썬 소스코드

2022년 4월 25일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Issues in Decision Tree and Other Algorithms

Decision tree뿐만 아니라 여러 다른 data mining algorithm들에는 저마다의 issue들이 존재한다. 이번에는 decision tree를 중심으로 data mining algorithm을 적용할 때 발생하는 issue들에 대해서 알아보려고 한다.

2022년 4월 25일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Evaluating Machine Learning Methods 2

Training과 test를 진행할 때 우리는 model에 training set을 이용해서 학습시킨 뒤에 test set을 이용해서 성능을 평가하려고 하다보면 다음과 같은 matrix를 얻을 수 있을 것이다.

2022년 4월 22일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Evaluating Machine Learning Methods 1

지금까지 decision tree나 Naive Bayes classfier와 같이 여러 classifier들에 대해서 알아보았다. 그리고 우리는 이러한 model들이 충분히 학습이 되었는지 확인할 필요가 있다. 그래서 이번에는 classifier와 같이 model들을

2022년 4월 22일
·
0개의 댓글

Initial Centroids Problem

이 글은 가장 기본적인 basic k-means에 대해 다루고 있습니다

2022년 4월 22일
·
0개의 댓글

What Is Data Mining And What Is The Difference Between Web Scraping And Data Mining?

Data mining and data scraping may appear to be interchangeable terms. Data mining is sometimes misinterpreted as the technique of getting information

2022년 4월 15일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Decision Tree - How to Split and Best Split

Test Conditions Methods for Expressing Test Conditions 우리는 이전에 split을 하는 기준과 관련해서 이야기했었다. 그래서 자세하게 이야기하기 전에 먼저 attribute type에 대해서 다시 살펴보고 갈 것이다. Bi

2022년 4월 8일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Decision Tree - Design Decision Tree Induction

Classification Classification: Definition Decision tree는 classification을 하기 위한 방법인데, 우리는 decision tree를 알아보기 전에 먼저 classification에 대해서 알아보려고 한다. Trai

2022년 4월 8일
·
0개의 댓글
post-thumbnail

데이터 사이언스란 - 0

머신러닝, AI, 데이터사이언스 공부하고 싶은데 뭔소린지 모르겠다고? 일단 들어와라 차근차근 설명해 줄테니

2022년 4월 7일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Linear Regression and Regularization

Supervised learning에서 prediction을 한다고 하고 $$a_1, a_2, \\dots, a_p$$와 같이 무수히 많은 attribute가 존재할 때 모든 attribute가 반드시 필요한 것은 아닐 것이다. 이러한 경우에 일부 attribute를

2022년 4월 4일
·
0개의 댓글
post-thumbnail

[데이터마이닝] Supervised vs. Unsupervised Learning - Supervised Learning

Supervised Learning Process Dataset with Labels Supervised learning은 data $$x=(x1, x2, \dots, xN), xi\in\mathbb{R}^k$$와 label $$yi$$가 주어졌을 때, data 안에

2022년 3월 24일
·
0개의 댓글