직접 공부하며 코드를 하나씩 실행해보면 혼돈이 큼
방법1: 코딩스타일바꾸기 (함수위주보다는 클래스 위주)
방법2: sklearn 유저라면 Pipeline기능을 사용
과적합 막기 위해 훈련과 테스트 데이터로 분류
심지어, 훈련데이터를 한번 더 분류 = 검증데이터
train 데이터를, k(5개 혹은 3개)
-fold cross validation으로 나누고
-각각을 검증 = 5번
-5개의 평균을 구해서 최종 검증을 정확도로 봄
검증이 끝나면 test 용 데이터로 재검증
하이퍼파라미터 순서:
raw값 - 특성관찰 - 데이터를 나눔 - 모델을만들고 결과를 보다가 - 하이퍼파라미터(=손으로 스스로 수정해야할 것들)
튜닝대상
결정나무에서 튜닝해볼만한건 max_depth
반복문으로 바꿔가며 테스트해볼 수 있음
근데, 보다 간편하고 유용한 방법이 있다