Decision Tree
Decision Tree의 분할 기준(Split Criterion)
로그를 이용한 계산은 계산하기 복잡하므로~
지도 학습
과적합(Overfitting)
아래 두 시각화 자료는 같은 모델이다.
경계면이 올바른 걸까?
결과가 내가 가진 데이터를 벗어나서 일반화할 수 있을까?
얻은 데이터는 유한하고 내가 얻은 데이터를 이용해서 일반화를 추구하게 된다.
이때 복잡한 경계면은 모델의 성능을 결국 나쁘게 만든다.
데이터 분리
교차검증
기존의 데이터 분리
교차검증의 데이터 분리: train 데이터를 다시 k 조각으로 분리