Unsupervised-Learning란?
Clustering
cf)
인터넷 쇼핑몰 마케터라고 할때 고객별 구매 상품 개수 데이터를 활용하여 유사한 고객 집단으로 세분화 하고자 한다면?
-> 데이터: 고객별 구매 상품 개수 데이터
-> 유사한 특성을 지닌 고객을 동일한 그룹으로 그룹화
군집 간 유사성 최소화
군집 내 유사성 최대화
ex)
100만명 이상인 고객의 구매 상품 데이터를 활용하여 고객을 군집화 하고자 한다면?
(대용량 데이터) 군집화
tip)
Elbow Method -> 최적 k구하기
Dimensionality Reduction
- 대용량의 고차원 데이터를 저차원으로 줄이는 알고리즘
(엄청나게 많은 변수를 가지고 있는 고차원의 데이터에서는 차원의 저주가 발생할 가능성이 높아짐)
차원의 저주란?)
차원이 높을수록 학습에 요구되는 데이터의 개수도 증가함
-고차원일 때 적은 개수의 데이터로만 차원을 표현하는 경우 overfitting 발생가능
-차원의 저주 발생 방지와 모델 학습 속도 및 성능 향상을 위한 차원 축소 알고리즘
- 2차원 데이터를 1차원으로 차원 축소할 경우 여러갈래의 축을 확인해보며 각 점들과 축의 오차가 가장 작은 축을 중심으로 데이터를 모음
- t-SNE
출처
1. 내용참조: 2022 군장병 sw/ai 역량강화 프로젝트형 중급과정
2. hard clustering-soft clustering사진: https://towardsdatascience.com/a-friendly-introduction-to-text-clustering-fa996bcefd04?gi=50335bcd9439
3. k-means 사진:https://www.javatpoint.com/k-means-clustering-algorithm-in-machine-learning
4. gaussian mixture model 사진:https://towardsdatascience.com/gaussian-mixture-models-explained-6986aaf5a95