P stage - Class imbalance problem

이호영·2021년 8월 28일
0

Boostcamp AI Tech 2기

목록 보기
13/32

마스크 분류 데이터셋에서 데이터 불균형이 발생한다.

  • 성별 불균형

  • 연령 불균형

  • 마스크 착용 불균형
    마스크 착용 : 비정상 착용 : 미착용 = 5:1:1

Multi-Class Imbalance 처리

Undersampling

overfitting 위험도가 커지고 데이터 손실이 발생해서 대부분 잘 하지는 않음

Oversampling

소수 class의 데이터를 복사해서 다른 class들의 데이터 양과 비슷하게 맞춘다.

Algorithm oversampling

SMOTE

  1. 소수 class에서 각각의 샘플들에서 KNN을 진행한다.
  2. 그 이웃들 사이에 선을 그어 무작위 선을 생성한다.
    -> Tabular data에서 사용하는 기법
    Image에서는 사용하지 않음

ADASYN

Cost sensitive learning

수가 적거나 분류하기 어려운 데이터에 대해서는 큰 가중치를 부여하고 수가 많고 분류하기 쉬운 데이터에 대해서는 작은 가중치를 부여하는 방식. 데이터 생성이 없다.

profile
Speech Synthesis & Voice Cloning

0개의 댓글