비지도학습(Unsupervised learning)이란 지도학습(Supervised learning)과 달리 정답(label, target)이 없는 데이터가 주어지는 학습 방법을 의미합니다.
말그대로 훈련 데이터에 label이 없습니다.
기계가 주어진 데이터가 어떻게 구성되어 있는지 패턴을 스스로 알아내는 방버을 의미합니다.
아무도 정답을 알려주지 않은채 오로지 데이터셋의 feature와 pattern을 기반으로 모델이 스스로 판단합니다.
지도학습은 분류(classification)과 회귀(regression)으로 이루어져 있습니다.
분류의 예를 살펴보겠습니다.
이미지 출처: 딥러닝, 데이터로 세상을 파악하다(2)
강아지와 고양이를 분류하는 일입니다. 모든 데이터에 정보가 명시되어 있으면 좋겠지만, 이미지에 '고양이'와 '강아지' label을 매기는 것은 인간이 수행해야 합니다.
이 문제를 해결하기 위해 비슷한 feature와 pattern을 가진 데이터끼리 군집화하는 방법이 있습니다.
군집화한 후에 어떤 군집에 속하는지 추론하는 방법입니다.
대표적으로 군집화(clustering), 차원 축소(dimensionality reduction), 데이터 시각화, 생성 모델(generative model) 등 다양한 task가 있습니다.
대표적 알고리즘으로는
등이 있습니다.