- 의심 상황 : 현재 모델의 정확도가 과하게 나와 오버피팅이 의심될 경우
- 원인
ⓐ 예측할 데이터에 사용할 수 없는 데이터를 사용해 모델의 학습 이루어질 경우
ⓑ 시계열 데이터와 같이 train set과 test set을 완전히 랜덤하게 구분지을 수 없을 경우 등
- 가중치 부여 ~ scikit-learn에서 class_weight
if class_weight = balanced -> n_samples / (n_classes * np.bincount(y))
- oversampling : 숫자가 적은 범주의 데이터를 추가적으로 샘플링
- undersampling : 숫자가 많은 범주의 데이터를 적게 샘플링