머신러닝은 데이터 학습 과정에서 정답(레이블) 유무에 따라 지도학습과 비지도학습으로 나눌 수 있다.
지도학습은 레이블링된 값(출력값)이 어떤 형태인지에 따라 분류 또는 회귀의 방법으로 답을 예측
레이블링된 값(출력값)이 범주형 데이터인 경우 학습한 모델은 각각의 값을 구별해내는 분류(Classification)의 역할을 수행
범주형 데이터 : 개, 고양이 분류 처럼 서로 완전히 구분되는 데이터
스펨 메일 분류, 필기체 숫자 인식 등이 이에 속함
레이블링된 값(출력값)이 연속형 데이터인 경우 학습한 모델은 입력값과 출력값 간의 일반적인 관계 특성을 도출하는 회귀(Regression)의 역할을 수행
연속형 데이터 : 값들이 어떠한 범위 내에서 자유롭게 수치형태로 존재할 수 있는 데이터
온도가 올라가면 아이스크림 판매량이 올라간다 처럼 온도(입력값)와 아이스크림 판매량(출력값) 간의 관계를 학습시키고 온도를 입력시키면 아이스크림 판매량을 예측
주가 예측, 시장규모 예측 등이 이에 속함
주어진 입력값에 대해 여러 번의 질문을 통해 답을 찾는 방법
여러개의 입력값을 주고 그 입력값에 해당되는 출력값을 준 뒤 여러번 학습시킨 후 다음 입력값을 줄 때 적절한 답을 주는 방법
많은 데이터가 존재할수록 정확하게 구별가능
회귀분석은 하나의 선으로 데이터를 분류하거나 일반화한다면, 의사결정나무는 여러 개의 직선을 활용
[그림출처 : https://en.wikipedia.org/wiki/Support_vector_machine]
2번째 그림을 보면 데이터가 직선으로 구분할 수 없는 형태로 되어있는데, 커널 함수라는 변환 함수를 통해 직선형태로 변형하여 구분할 수 있게 만듦
데이터의 분포가 어떻든 직선이나 곡선을 그어서 분류할 수 있기 때문에 회귀모델이나 의사결정나무모델이 학습하기 어려운 복잡한 데이터도 학습 가능