Machine Learning 필수 개념: 지도 학습, 반지도 학습, 비지도 학습 완벽 이해
머신러닝(Machine Learning)을 제대로 이해하려면 가장 먼저 세 가지 기본 학습 방식을 정확히 알아야 합니다.
바로 Supervised Learning(지도 학습), Semi-Supervised Learning(반지도 학습), Unsupervised Learning(비지도 학습) 입니다.
1. Supervised Learning (지도 학습)
정의
- 입력 데이터와 정답(레이블) 이 함께 제공되는 가장 기본적인 학습 방식입니다.
- 모델은 입력을 보고 정답을 예측하는 법을 배웁니다.
데이터 예시
- 이미지 → "고양이" 라벨
- 이메일 → "스팸" 또는 "정상" 라벨
대표 알고리즘
- 분류: SVM, 로지스틱 회귀, Random Forest, CNN, Transformer
- 회귀: 선형 회귀, XGBoost, Decision Tree Regressor
사용 예시
- 얼굴 인식: 사진 → 사람 이름
- 음성 인식: 음성 신호 → 텍스트
- 의료 진단: X-ray → 질병 유무 판별
2. Semi-Supervised Learning (반지도 학습)
정의
- 전체 데이터 중 일부만 레이블이 있고, 나머지는 라벨이 없는 상태.
- 소량의 레이블 데이터를 활용해 비라벨 데이터까지 효과적으로 학습하는 것이 핵심.
대표 기술
- Pseudo-labeling (가짜 라벨 생성)
- Consistency Regularization
- FixMatch, MixMatch (이미지 분류에서 유명)
사용 예시
- 대량의 의료 이미지 중 일부만 전문가가 라벨링한 경우
- 웹에서 수집한 대규모 데이터 중 일부만 수작업 라벨링된 경우
3. Unsupervised Learning (비지도 학습)
정의
- 레이블 없이 데이터 자체만으로 패턴이나 구조를 파악하는 학습 방법.
- 숨겨진 군집, 관계, 데이터 구조를 찾아냄.
대표 알고리즘
- 클러스터링: K-Means, DBSCAN
- 차원 축소: PCA, t-SNE, UMAP
- 밀도 추정: Gaussian Mixture Model
- 생성 모델: Autoencoder, GAN
사용 예시
- 고객 세분화: 특성 기반으로 그룹 나누기
- 문서나 이미지 군집화
- 이상 탐지: 정상 패턴에서 벗어난 이상 징후 감지
4. 비교 한눈에 보기
구분 | 레이블 여부 | 예시 | 주요 목적 |
---|
Supervised | 레이블 있음 | 이미지 → 고양이/강아지 | 정확한 예측 모델 학습 |
Semi-Supervised | 일부만 레이블 있음 | 일부 라벨링된 의료 이미지 | 라벨 부족 상황에서 보완 학습 |
Unsupervised | 레이블 없음 | 사용자 행동 데이터 클러스터링 | 데이터의 숨겨진 구조 파악 |
5. 요약
- Supervised: 레이블이 있는 데이터 → 정확한 예측 모델
- Semi-Supervised: 일부만 라벨링된 데이터 → 라벨 부족을 극복
- Unsupervised: 라벨 없이 데이터 탐색 → 숨겨진 패턴과 구조 찾기
추가 Tip
실제 현장에서는 Semi-Supervised Learning이 점점 더 중요해지고 있어요!
대용량 데이터의 라벨링 비용을 줄이면서도 높은 성능을 확보할 수 있기 때문입니다.