별다른 모델 없음
key idea
: just store!!!
모든 training data를 그냥 저장 (Training)
Nearest neighobr
: (Test)
주어진 query instance 와 가장 가까운 training example 을 먼저 찾고, 그다음 추정
k-Nearest neighbor
: (Test)
Given test data , take vote among its k nearest neighbors
categorical data
에서는 거리를 어떻게 측정? (non-euclidean data)분수가 왜이렇게 쪼꼬매..
매개변수
In Decision Tree
, 어느 정도의 best depth를 사용하는 게 좋을까?
In kNN
,
k의 best value 값은?
어느 정도의 best distance를 사용하는 게 좋을까?
위의 값들이 hyperparameters!!
학습보다는 우리가 설정한 알고리즘에 대한 선택
📌 Idea #1
📌 Idea #2
약 9:1
로 자름
train
data로 model을 만들고 test
data로 테스트
test
data로 hyperparameter 판단하면 절대 안됨!!!!!!
📌 Idea #3
약 8:1:1
로 자름
먼저 train
데이터로 학습한 후 validation
데이터, 즉 검증 데이터로 매개변수를 정하고, test
데이터로 최종 테스트
교차 검증, data가 작을 때 자주 사용하는 방식
딥러닝에서는 학습 시간이 오래 걸려서 잘 쓰이지 않음
test
데이터는 무조건 남겨둬야 함!!! model 만들 때 건들면 안되는 data
위의 예시는 5-fold cross-validation
test data를 그 누구도 잘 알 수 있게 뽑은 게 아니냐는 지적이 있을 수 있기 때문에, test data 자체도 cross-validation 할 수 있음
(+ 평균)(± 분산)