"Field of study that gives computers the ability to learn without being explicitly programmed" Auth
프로그램인데 개발자가 일일히 정하지않고 이 프로그램 자체가 어떤 데이터를 보고 학습해서 무언가를 배우는 역량을 갖는 것
학습시, 학습하기 위한 데이터가 필요함
Supervised/ Unsupervised learning
레이블이 달린 데이터에서 레이블을 보고 학습한다.
ex. Image labeling, Email spam filter, Predicting exam score
Training data set 반드시 필요
답이 정해져있는 (레이블이 있는) (y 값을 알고 있음) 데이터
ex.Predicting exam score
0~100점 <-- regression
pass/non-pass <-- binary classification (2가지 중이니)
Letter grade(A,B,C, and F ) <-- multi-label classification
Type of supervised learning
(1) regression
(2) binary classification
(3) multi-label classification
(1) regression 데이터 모델
ex. predicting final exam score based on time-spent
x(hour), y(sore) 에 대한 트레이닝 데이터 셋이 있고,
if x=7, y =? 확인시 트레이닝 데이터 셋을 보고 '대략 75점되겠다' 라고 결과를 내는 것
(2) binary classification의 문제
ex. Pass/non-pass based on time spent
x(hour), y(pass/fail) 에 대한 트레이닝 데이터 셋으로 학습하여 입력값x에 따른 y값 도출
(3) multi-label classification
ex. Letter grade(A,B..) based on time spent
x(hour), y(grade) 에 대한 트레이닝 데이터 셋으로 학습하여 입력값x에 따른 y값 도출
ex. Google news grouping, Word clustering
레이블을 정할 수 없는 경우, 데이터를 보고 스스로 학습한다.
(참고)
https://youtu.be/qPMeuL2LIqY
http://www.holehouse.org/mlclass/