Unsupervised Learning의 정의
Clustering의 정의
Clustering의 방법론
Unsupervised Learning을 실제로 활용할 수 있다.
Clustering 기법이란 무엇인지 설명할 수 있다.
다양한 Clustering 기법을 알고 적절한 방법을 선택할 수 있다.
특징
주어진 데이터가 라벨이 없고 피처들만 존재하는 샘플들로 구성됨
라벨이 제공될 수 없는 경우
Similarity search: 클래스 정보 없이 서로 다른 2개의 샘플이 비슷한 것인지 다른 것인지 분류하는 것
Data visualization: 10개 이상의 많은 dimension을 2개의 dimension으로 줄이는 것
Clustering: 라벨이 주어져 있지 않은 데이터를 비슷한 샘플끼리 하나의 덩어리로 뭉치고 결과값을 도출하는 것
Clustering
특징
라벨 데이터가 제공되지 않습니다.
각각의 샘플이 어떤 그룹에 속하는지 출력합니다.
결과가 좋은지 나쁜지 판단하기 어렵습니다.
피쳐들의 상황관계 자체가 명확하게 설명되지 않아 정량적으로 측정하는 것이 어렵습니다.
여러 클러스터링 알고리즘이 존재할 때 어떤 클러스터링 알고리즘이 현재 문제 해결 목적에 적합한지 결정하기 어렵다는 의미입니다.
따라서 다양한 클러스터링 알고리즘을 접하고 경험적으로 선택해야합니다.
클러스터링 활용
여러 항성에 대한 정보를 제공할 때 항성을 분류하는 기준을 제시
어떤 개의 종을 찾고자 할때 분류하는 기준을 제시
콘텐츠 플랫폼에서 수많은 콘텐츠를 분류
매장 운영 시 매장 방문객의 데이터를 취합하여 손님들의 특성과 방문에 대해 분류
클러스터링 알고리즘 종류
4가지의 알고리즘은 서로 다른 방식이 아니고 서로 섞이거나 겹칠 수 있어 완벽하게 구분되는 기준이 아닙니다.
parametric 클러스터링
클러스터의 개수를 입력 받습니다.
대표적으로 k-means 클러스트 알고리즘이 있습니다.
density-based 클러스터링
서로 근접하고 있는 샘플들을 모두 한 덩어리로 뭉치는 알고리즘
출력되는 클러스터의 개수는 덴시티 정의에 따라 계속 변합니다.
Non-Parametric clustering이라고도 불립니다.
대표적으로 DBSCAN 알고리즘이 있습니다.
ensemble 클러스터링
hierarchical 클러스터링
데이터 샘플이 동일한 환경에서 클러스터 크기가 작으면 클러스터의 개수는 그만큼 늘어납니다.
최소한의 크기로 클러스터를 구성하고 그것들을 묶은 클러스터의 형태를 단계별로 찾아내는 방식입니다.
대표적으로 Aglomerative 클러스터링 알고리즘이 있습니다.