지도학습을 위한 모델은 크게 Classification(분류)모델과 Prediction(예측)모델로 구분된다.
- Classification(분류) : 연속적이지 않은 값, 즉 '무엇'을 예측
사용하는 알고리즘에 따라 KNN(K Nearest Neighbor), SVM(Support Vector Machine), Decision trees(의사결정 트리)등으로 구분 된다.
- Prediction(예측) : 연속된 값, 즉 '얼마나'을 예측
Regression(회귀)모델이 대표적으로 사용되고 있다.
=> 분류모델은 학습데이터의 레이블(답)중 하나가 결과값이 되며, 예측 모델은 학습데이터에서 도출된 함수식에서 계산된 임의의 값이 결과값이 된다.
Classification
- 레이블(정답)이 이산적인 경우로 숫자 인식, 번호판 인식, 스팸메일 구분등 정답이 가질 수 있는 값이 유한한 경우이다.
Regression
- 레이블(정답)이 실수인 경우로 특성들을 바탕으로 구분선을 찾아내는 방법
- 데이터들을 쭉 뿌려놓고 이를 가장 잘 설명하는 직선 또는 이차함수 곡선을 그리고 싶을때 회귀 기능을 사용한다.
- 선형회귀 기법이 가장 대표적이며 회귀 분석에서 종속변수란 결과값을 가리키며, 독립변수란 이러한 결과값에 영향을 주는 입력값(특성)들을 가리킨다.
- Simple Linear Regression Analysis(단순 선형 회귀 분석) : 하나의 종속 변수, 하나의 독립변수 사이의 관계 분석
- Multiple Linear Regression Analysis(다중 선형 회귀 분석) : 하나의 종속 변수, 여러개의 독립변수 사이의 관계 분석