2.3.1_Choose_ML_Problems

chang·2021년 3월 2일
0

부트캠프

목록 보기
24/28

[키워드]

  • 정보의 누출(data leakage)
  • 타겟의 분포와 변환

[학습내용]

  • data leakage

    - 의심 상황 : 현재 모델의 정확도가 과하게 나와 오버피팅이 의심될 경우
    - 원인
    ⓐ 예측할 데이터에 사용할 수 없는 데이터를 사용해 모델의 학습 이루어질 경우
    ⓑ 시계열 데이터와 같이 train set과 test set을 완전히 랜덤하게 구분지을 수 없을 경우 등

  • 클래스 불균형

    - 가중치 부여 ~ scikit-learn에서 class_weight
    if class_weight = balanced -> n_samples / (n_classes * np.bincount(y))
    - oversampling : 숫자가 적은 범주의 데이터를 추가적으로 샘플링
    - undersampling : 숫자가 많은 범주의 데이터를 적게 샘플링

[찾아볼 내용]👀

  • 추가적인 imbalanced data에 적용할 수 있는 기법 찾아보기

0개의 댓글