[AI] 지도학습 vs 비지도학습 vs 강화학습

ghKim0911·2025년 2월 24일

AI

목록 보기

3/8

지도학습 vs 비지도학습 vs 강화학습

"머신러닝은 학습 방식에 따라 지도학습(Supervised Learning), 비지도학습(Unsupervised Learning), 강화학습(Reinforcement Learning)으로 나뉜다."

머신러닝은 데이터를 학습하는 방식에 따라 크게 세 가지로 구분됨.

지도학습: 정답이 있는 데이터를 학습
비지도학습: 정답 없이 패턴을 찾는 학습
강화학습: 보상을 기반으로 최적의 행동을 학습

🎯 1. 지도학습(Supervised Learning)

✅ 정답이 주어진 데이터를 학습하여 예측하는 방식
✅ 입력(X)과 정답(Y)이 한 쌍으로 주어짐
✅ 과거 데이터를 활용하여 미래를 예측하거나 분류하는 데 사용

📌 예제

스팸 메일 분류: 이메일이 "스팸"인지 "정상"인지 분류
집값 예측: 주택의 크기, 위치를 입력하면 가격을 예측

📌 알고리즘

선형 회귀 (Linear Regression)
로지스틱 회귀 (Logistic Regression)
의사결정나무 (Decision Tree)
랜덤 포레스트 (Random Forest)
신경망 (Neural Network)

📌 한계점

많은 데이터가 필요
정답(라벨)이 있어야 함

🔍 2. 비지도학습(Unsupervised Learning)

✅ 정답(라벨) 없이 데이터의 패턴을 찾는 방식
✅ 그룹을 나누거나 데이터의 숨겨진 구조를 발견하는 데 사용

📌 예제

고객 세분화: 쇼핑몰에서 고객의 행동 패턴을 분석하여 그룹화
추천 시스템: 비슷한 취향을 가진 사용자끼리 묶어 추천

📌 알고리즘

군집화 (Clustering, 예: K-Means, DBSCAN)
차원 축소 (PCA, t-SNE)
연관 규칙 학습 (Association Rule Learning)

📌 한계점

결과 해석이 어려울 수 있음
정답이 없기 때문에 평가가 어려움

🚀 3. 강화학습(Reinforcement Learning)

✅ 보상을 기반으로 최적의 행동을 학습하는 방식
✅ 환경과 상호작용하며 최상의 전략(Policy)을 학습
✅ 게임, 로봇 제어, 자율 주행 등에서 많이 활용됨

📌 예제

알파고(AlphaGo): 바둑에서 최적의 수를 학습
자율주행 자동차: 도로에서 안전하게 주행하는 법을 학습

📌 구성 요소

에이전트(Agent): 학습을 수행하는 주체
환경(Environment): 에이전트가 행동하는 공간
행동(Action): 에이전트가 수행하는 선택
보상(Reward): 행동의 결과에 따라 주어지는 점수

📌 알고리즘

Q-러닝 (Q-Learning)
심층 강화학습 (Deep Q-Network, DQN)
정책 그래디언트 (Policy Gradient)

📌 한계점

많은 시뮬레이션이 필요
학습이 오래 걸릴 수 있음

🏆 지도학습 vs 비지도학습 vs 강화학습 비교

구분	지도학습	비지도학습	강화학습
데이터	정답(라벨) 있음	정답 없음	보상을 기반으로 학습
목표	입력 → 출력 예측	데이터 패턴 탐색	최적의 행동 결정
알고리즘	회귀, 분류 모델	군집화, 차원 축소	Q-Learning, DQN
활용 사례	스팸 필터, 이미지 분류	고객 세분화, 이상 탐지	게임 AI, 로봇 제어

정리

지도학습: 정답이 있는 데이터를 학습하여 예측
비지도학습: 정답 없이 데이터의 패턴을 찾음
강화학습: 보상을 기반으로 최적의 행동을 학습

ghKim0911

이전 포스트

[AI] 머신러닝과 딥러닝의 차이

다음 포스트

[AI] 지도학습 vs 비지도학습 vs 강화학습

AI

지도학습 vs 비지도학습 vs 강화학습

🎯 1. 지도학습(Supervised Learning)

🔍 2. 비지도학습(Unsupervised Learning)

🚀 3. 강화학습(Reinforcement Learning)

🏆 지도학습 vs 비지도학습 vs 강화학습 비교

정리

[AI] 머신러닝과 딥러닝의 차이

[AI] LLM(Large Language Model)

0개의 댓글