분류(Classification)
분류의 종류
- 이진 분류(Binany Classification)
- 데이터를 2개의 그룹으로 분류
- 다중 분류(Multiclass Classification)
- 데이터를 3개의 그룹 이상으로 분류
새로운 데이터가 들어왔을 때 가장 가까운 유사 속성에 따라 기존 데이터의 그룹(K개의 그룹) 중 어떤 그룹에 속하는지 분류하는 알고리즘 (유유상종)
거리 기반 분류 분석 모델
기존 관측치의 Y값(Class)가 존재한다는 점에서 비지도학습인 '클러스터링(Clustering)'과 차이가 있음.
데이터로부터 거리가 가까운 K개의 다른 데이터의 레이블을 참조하여 분류
거리 측정 시 '유클리디안 거리'계산법 사용
K 값은 가능하면 홀수로 지정하는 것이 좋음. 동점 상황 방지를 위해.
학습 데이터 내에 존재하는 노이즈의 영향을 크게 받지 않으며, 학습 데이터 수가 많을 때 효과적인 알고리즘
단점: 어떤 하이퍼 파라미터가 분석에 적합한지는 불분명하기 때문에, 데이터 각각의 특성에 맞게 연구자가 임의로 선정해야 한다.
이미지 처리, 영상에서의 글자/얼굴 인식, 영화/음악/상품 추천에 대한 개인별 선호 예측 등에 응용
장점과 단점
장점
단점
개발자로서 성장하는 데 큰 도움이 된 글이었습니다. 감사합니다.