📝 오늘 공부한 내용
Out-of-Fold Prediction
- K-Fold Cross Validation 기법을 활용해서 더 나은 예측을 얻는 예측 기법
- K개의 모델을 각각 따로 학습 시켜서 K개의 모델이 성능이 가장 높게 나오는 파라미터 조합을 찾는 방식
Procedure
- Grid로 6가지 하이퍼 파라미터 조합이 있다면
- 5 fold로 학습을 하면 총 30가지 학습 모델이 나온다.
- 해당 모델을 학습하고 6가지 모델 그룹(같은 하이퍼파라미터로 세팅 된 모델) 중 평균이 좋은 모델 그룹의 하아퍼파라미터를 최종적으로 선택한다.
- 그 파라미터로 전체 데이터를 학습시켜 모델 하나를 도출한다.
성능평가
- accuracy
- F1 score
- accuracy로는 뭘 줄일지 확인 불가해!
- precision: 모델이 예측한 positive가 얼마나 맞았을까
- recall: 실제 정답 중에 얼마나 맞았을까
- AUC
- 모델 성능을 비교할 때, threshold를 바궈도 전반적인 성능이 좋고 / 나쁘고를 비교하고 싶을 때 사용
- 전반적인 성능이 의미하는건 뭘까??
Kaggle 16:00~
- 팀머지 나중에 하기
- colab 노트북 할 수는 있는데
- kaggle notebook으로 공유하지 말기
- code 탭
- Most Votes: 좋아요 순 → 근본 코드
- 노트북 올렸을 때 leader board의 등수 확인하기
- 상위권에 노란색, 빨간색이 많이 없으면 overfitting 됐다고도 볼 수 있다
ICR
- 3개의 병 중에 하나라도 있으면 1, 없으면 0