Machine Learning (개요)
- 지도 학습 (Supervised Learning) : Supervised Learning은 트레이닝 데이터에 라벨(답)이 있을때 사용
- 분류 (Classification) 분류 알고리즘은 주어진 데이터의 카테고리 혹은 클래스 예측을 위해 사용
- 회귀 (Prediction) 회귀 알고리즘은 continuous 한 데이터를 바탕으로 결과를 예측 하기 위해 사용
- 비지도 학습 (Unsupervised Learning)
- 클러스터링 (Clustering) 데이터의 연관된 feature를 바탕으로 유사한 그룹을 생성
- 차원 축소 (Dimensionality Reduction 높은 차원을 갖는 데이터셋을 사용하여 feature selection / extraction 등을 통해 차원을 줄이는 방법
- 연관 규칙 학습 (Association Rule Learning) 데이터셋의 feature들의 관계를 발견하는 방법
- 강화 학습 (Reinforcement Learning) 머신러닝의 한 형태로 기계가 좋은 행동에 대해서는 보상 그렇지 않은 행동에는 처벌이라는 피드백을 통해서 행동에 대해 학습해 나가는 형태
K-Means Clustering
과정
n-차원의 데이터에 대해서 :
1. k 개의 랜덤한 데이터를 cluster의 중심점으로 설정
2. 해당 cluster에 근접해 있는 데이터를 cluster로 할당
3. 변경된 cluster에 대해서 중심점을 새로 계산
4. cluster에 유의미한 변화가 없을 때 까지 2-3을 반복
K-means에서 K를 결정하는 방법
- The Eyeball Method :사람의 주관적인 판단을 통해서 임의로 지정하는 방법
- Metrics : 객관적인 지표를 설정하여, 최적화된 k를 선택하는 방법