분류 예측 모델 탐색
‘전체 기간 합산 / 일자별 데이터’ 2종류로 분석 진행 후 학습된 모델 검증 순으로 진행했다.
다양한 알고리즘 모델로 정확도 점수를 확인했다.
근데 그냥 모델을 가져다가 쓰기만 해서, 자세한 작동 원리 같은 건 1도 모르고 진행했다. 물론 수업 때 이론에 대해 배운 모델들도 있지만,, 기억하지 못할 뿐,,,
뒤에 3가지는 인터넷을 돌아다니다가 분류 점수가 높은 모델들이길래 사용해봤다.
모델 결과
이것도 다시 작성하기 귀찮아서 그냥 발표자료로 대체한다.
일단 전체 기간 합산 데이터로 먼저 진행을 했을 때, 생각보다 점수가 낮아서 급하게 알아본 ExtraTrees 모델이 그나마 좀 높은 편이었다. (그래봤자 76) 찾아보니 이게 outlier나 noise에 영향을 덜 받는 모델이라고 함. 사용한 리니지 데이터가 실제 유저들의 데이터기 때문에 완벽하게 예쁜 데이터라기보다 그런 튀는 부분이 있을 것 같아서 잘 맞는 모델이었지않나 싶다. 
70점대로 마무리하기에는 아쉬워서 데이터 전처리를 다른 방식으로 하면 나아지지 않을까?하고 바꿔본 방식. 시간 순으로 있는 컬럼도 있고, 일자별도 있었는데 나는 그냥 일자별로 일괄 정리를 해서 모델을 돌려봤다.
근데 수업 때 배운 모델들은 이렇게 해도 가망이 없어서,,, 역시나 다른 모델들을 찾아서 추가했다. 이것도 ExtraTrees가 가장 잘 나왔는데 무려 95점을 기록함. 
특성 중요도 차트도 수업 때 배운 코드를 활용해서 뽑아봤다. 추가로 알아본 모델들을 사용해서 뽑을 생각을 못했는데, 알고보니 ExtraTrees도 저걸 뽑을 수 있는 모델이라고 하셔서 아쉬웠음. (하지만 추가로 해보고 싶은 마음만 있고, 실행할 마음이 없어서 자료는 없다.)
test 결과
95점이나 나왔던 ExtraTrees는 엄청난 과적합이었던걸로,,,,😂 오히려 이건 DecisionTree 모델이 제일 높았다. 이것도 그리 높은 점수는 아니었음. 50:50 확률보다 조금 낫다 정도...?
정확한 예측 모델 만들기 참 어렵네...