지도 학습은 입력(데이터)과 타깃(정답)으로 이뤄진 훈련 데이터가 필요해요. 입력과 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는 데 활용합니다. 쉽게 말해 본 적 없는 미래 데이터를 예측하는 방법입니다.
label이 지정된 데이터 세트를 이용해 데이터를 분류하거나 결과를 정확하게 예측하도록 알고리즘을 설계하고, 인공지능 모델은 label이 있는 입력 및 출력을 사용하여 정확도를 측정하고 학습할 수 있어요.
지도 학습은 회귀(Regression)과 분류(Classification)라는 두 가지 유형의 문제로 나눌 수 있어요.
회귀는 알고리즘을 사용하여 종속 변수와 독립 변수 간의 관계를 이해하는 지도 학습의 방법 중 하나에요. 클래스 중 하나로 분류하는 것이 아니라 임의의 어떤 숫자를 예측하는 문제입니다.
주어진 입력 변수와 출력 변수 사이의 관계를 모델링하는 기술이에요.
🗃️ 회귀 문제 예시
- □□기업의 2026년 경제 성장률을 예측하시오.
- ○○가게에서 △△아파트까지의 배달 도착 시간을 예측하시오.
- @@환경에서 자란 농어의 길이, 높이, 두께를 측정한 데이터가 있을 때, 농어의 무게를 정확히 측정한 샘플 75개를 통해 농어의 무게를 예측하시오.
이처럼 회귀 모델은 특정 비즈니스에 대한 판매 수익 예측과 같이 다양한 데이터 요소를 기반으로 숫자 값을 예측하는데 유용해요!
+) 왜 회귀라고 불리나요?
회귀는 19세기 통계학자이자 사회학자인 프랜시스 골턴(Francis Galton)이 처음 사용한 용어로, '키가 큰 사람의 아이가 부모보다 더 크지 않는다'는 사실을 관찰하고 이를 '평균으로 회귀한다.' 라고 표현했어요. 그 후 두 변수 사이의 상관관계를 분석하는 방법을 회귀라고 불렀습니다.
분류란 알고리즘을 사용하여 사과와 오렌지를 분리하는 것과 같이 데이터를 특정 카테고리로 할당하는 방식이에요. 샘플을 몇 개의 클래스(종류) 중 하나로 구별해 분류하는 문제입니다.
🗃️ 분류 문제 예시
- 받은 편지함과 별도의 폴더에 스팸을 분류하시오.
- 제품이 불량인지 양품인지 분류하시오.
- 100명의 고객중 이탈고객과 잔류고객을 분류하시오.
- 도미와 빙어를 분류하시오.
분류는 이진분류와 다중분류로 나눌 수 있어요.
비지도 학습은 label이 지정되지 않은 데이터 세트를 분석하고 클러스터링하는 방식이에요. 타겟 데이터 없이 입력 데이터만 있을 때 사용해요. 즉, 사람의 텍스트개입 없이 데이터에서 숨겨진 패턴을 발견하는 방식입니다.
이런 종류의 알고리즘은 정답을 사용하지 않으므로, 무언가를 맞힐 수가 없는 대신 데이터를 잘 파악하거나 변형하는데 도움을 줍니다.
비지도 학습 모델은 클러스터링(Clustering), 연관(Association) 및 차원 축소(Dimentionality reduction)와 시각화(Visualization)의 세 가지 주요 작업에 많이 사용됩니다.
Clustering은 라벨이 지정되지 않은 데이터를 유사성 또는 차이점에 따라 그룹화하는 데이터 마이닝 기술이에요.(작은 그룹으로 세분화)
🗃️ 예시)
- K-means
- 계층 군집 분석 (HCA, Hierachical Cluster Analysis)
- 기댓값 최대화(Expectation Maximization)
Association은 주어진 데이터 세트에서 변수 간의 관계를 찾는 비지도 학습 방법이에요. 대량의 데이터에서 특성 간의 유의미한 관계를 찾아요.
🗃️ 예시(쓰임)
- 장바구니 분석
- 추천 시스템(OTT 등)
- DNA 패턴, 단백질 서열 분석
- Apriori(연관규칙)
- Eclat
주로 장바구니 분석 및 추천 엔진에 주로 사용되고있어요.
시각화는 label이 없는 고차원 데이터를 넣으면 이차원이나 삼차원의 표현으로 만든다는 것을 의미합니다. 차원 축소는 특정 데이터 세트의 특징(feature)또는 차원(dimention)수가 너무 많을 때 사용되는 학습 기술이에요. 데이터 무결성(Data integrity)를 유지하면서(정보손실 최소화) 데이터 입력 수를 관리 가능한 크기로 줄입니다.(데이터 간소화)
🗃️ 예시)
- 주성분 분석(PCA, Principal Component Analysis)
- Kernel PCA
- 지역적 선형 임베딩(LLE, Locally-Linear Embedding)
- t-SNE (t-distributed Stochastic Neighbor Embedding)
| 항목 | 지도 학습 (Supervised) | 비지도 학습 (Unsupervised) |
|---|---|---|
| 정답 데이터 | 필요함 | 필요 없음 |
| 목적 | 입력 → 출력 예측 | 숨겨진 구조나 패턴 발견 |
| 출력 데이터 사용 | 사용함 | 사용하지 않음 |
| 문제 유형 | 분류, 회귀 | 군집화, 차원 축소 |
| 알고리즘 예시 | SVM, 결정 트리, 신경망 | K-평균, PCA, 오토인코더 |
| 평가 방법 | 정확도, MSE, F1 등 정량적 평가 | 실루엣 점수, 시각적 분석 등 |
두 학습의 접근 방식의 주요 차이점은 데이터 세트에 label이 지정되어 있는지 아닌지입니다.
지도 학습은 label(문제에 대한 정답)이 지정된 입력 및 출력 데이터를 사용하는 반면, 비지도 학습 알고리즘은 그렇지 않아요.
지도 학습은 입력을 통해 출력을 예측하고 오차를 줄여나가요. 즉 미래를 예측하는 반면, 비지도 학습은 숨겨진 구조나 패턴을 발견하는 접근 방식입니다.
지도 학습 모델이 비지도 학습 모델보다 더 정확한 경향이 있지만, 데이터에 적절하게 레이블을 지정하려면 사전에 사람의 개입이 필요해요.
또, 지도 학습은 일반적으로 R 또는 Python과 같은 프로그램을 사용하여 계산되는 간단한 머신러닝 방법이에요. 그러나 비지도 학습에서는 대량의 분류되지 않은 데이터로 작업하기 위한 강력한 도구가 필요하다는 차이점이 있어요. 비지도 학습 모델은 의도한 결과를 생성하기 위해 대규모 훈련 세트가 필요하기 때문에 계산적으로 복잡하기 때문입니다.