Classification vs Clustering
- classification - 분류로, 정해진 레이블/카테고리가 있고 새로운 데이터가 어디에 속할 지를 예측, 지도학습(supervised learning : 각 데이터가 어떤 레이블(또는 정답)에 속하는지 미리 알려진 상태 )이다.
ex) decision tree, logistic regression, SVM , K-nearst
- clustering - 군집화/그룹화로, 비슷한 성질의 그룹끼리 묶는 것 (미리 분류된 것 없음) , 비지도 학습이다.
ex) k-means
Classification vs Regression
target attribute의 데이터 타입이 다르다.
- classification 은 categorical attribute을 예측
ex) 사과냐 배냐
- regression은 continuous attribute을 예측
ex) 사과의 가격이 얼마냐
용어 정리
- Record = sample 로, relation(table) 의 row 행
attribute = feature(속성)으로, relation의 column 열
target =class, predict 할 output
Classification
이진분류( binary classification) 3가지
- Decision tree
: 의사결정 트리로, tree 구조 활용
- logistic regression
: 데이터가 어떤 범주에 속할 확률을 0-1 사이로 계산해서 분류한다.
(과정) 확률 계산 -> threshold 정해서 이상이면 1 이하면 0 -> 이진분류( binary classification)
- SVM (support vetor machine)
: 두개의 class 사이의 최대 margin을 찾아서 결정 경계선/분류선 을 찾은 후 새로운 데이터를 경계선을 사용하여 예측/분류한다.
그러므로 낮은 오류 (안전성) 과 과적합을 방지 가능.
- overfitting이란?
: 새로운 데이터에 대해 성능 저하 , 훈련데이터에 너무 맞춰져 있어서 예측을 잘 못하는 것.
Clustering
- K-means
: k개의 cluster 로 centroid(중심,평균) 을 이용하여 그룹화하는 것.
(과정) 1. 처음에는 랜덤으로 centroid 선정
2. 각각의 데이터에서 centroid가 가장 가까운 cluster 로 할당
3. 다시 centroid 계산-> 변경
4. 중심이 크게 변하지 않을 때 까지 반복