지도학습 vs 비지도학습 vs 강화학습
"머신러닝은 학습 방식에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)으로 나뉜다."
머신러닝은 데이터를 학습하는 방식에 따라 크게 세 가지로 구분됨.
- 지도학습: 정답이 있는 데이터를 학습
- 비지도학습: 정답 없이 패턴을 찾는 학습
- 강화학습: 보상을 기반으로 최적의 행동을 학습
🎯 1. 지도학습(Supervised Learning)
✅ 정답이 주어진 데이터를 학습하여 예측하는 방식
✅ 입력(X)과 정답(Y)이 한 쌍으로 주어짐
✅ 과거 데이터를 활용하여 미래를 예측하거나 분류하는 데 사용
📌 예제
- 스팸 메일 분류: 이메일이 "스팸"인지 "정상"인지 분류
- 집값 예측: 주택의 크기, 위치를 입력하면 가격을 예측
📌 알고리즘
- 선형 회귀 (Linear Regression)
- 로지스틱 회귀 (Logistic Regression)
- 의사결정나무 (Decision Tree)
- 랜덤 포레스트 (Random Forest)
- 신경망 (Neural Network)
📌 한계점
🔍 2. 비지도학습(Unsupervised Learning)
✅ 정답(라벨) 없이 데이터의 패턴을 찾는 방식
✅ 그룹을 나누거나 데이터의 숨겨진 구조를 발견하는 데 사용
📌 예제
- 고객 세분화: 쇼핑몰에서 고객의 행동 패턴을 분석하여 그룹화
- 추천 시스템: 비슷한 취향을 가진 사용자끼리 묶어 추천
📌 알고리즘
- 군집화 (Clustering, 예: K-Means, DBSCAN)
- 차원 축소 (PCA, t-SNE)
- 연관 규칙 학습 (Association Rule Learning)
📌 한계점
- 결과 해석이 어려울 수 있음
- 정답이 없기 때문에 평가가 어려움
🚀 3. 강화학습(Reinforcement Learning)
✅ 보상을 기반으로 최적의 행동을 학습하는 방식
✅ 환경과 상호작용하며 최상의 전략(Policy)을 학습
✅ 게임, 로봇 제어, 자율 주행 등에서 많이 활용됨
📌 예제
- 알파고(AlphaGo): 바둑에서 최적의 수를 학습
- 자율주행 자동차: 도로에서 안전하게 주행하는 법을 학습
📌 구성 요소
- 에이전트(Agent): 학습을 수행하는 주체
- 환경(Environment): 에이전트가 행동하는 공간
- 행동(Action): 에이전트가 수행하는 선택
- 보상(Reward): 행동의 결과에 따라 주어지는 점수
📌 알고리즘
- Q-러닝 (Q-Learning)
- 심층 강화학습 (Deep Q-Network, DQN)
- 정책 그래디언트 (Policy Gradient)
📌 한계점
- 많은 시뮬레이션이 필요
- 학습이 오래 걸릴 수 있음
🏆 지도학습 vs 비지도학습 vs 강화학습 비교
| 구분 | 지도학습 | 비지도학습 | 강화학습 |
|---|
| 데이터 | 정답(라벨) 있음 | 정답 없음 | 보상을 기반으로 학습 |
| 목표 | 입력 → 출력 예측 | 데이터 패턴 탐색 | 최적의 행동 결정 |
| 알고리즘 | 회귀, 분류 모델 | 군집화, 차원 축소 | Q-Learning, DQN |
| 활용 사례 | 스팸 필터, 이미지 분류 | 고객 세분화, 이상 탐지 | 게임 AI, 로봇 제어 |
정리
- 지도학습: 정답이 있는 데이터를 학습하여 예측
- 비지도학습: 정답 없이 데이터의 패턴을 찾음
- 강화학습: 보상을 기반으로 최적의 행동을 학습