마스크 분류 데이터셋에서 데이터 불균형이 발생한다.
- 마스크 착용 불균형
마스크 착용 : 비정상 착용 : 미착용 = 5:1:1
Multi-Class Imbalance 처리
Undersampling
overfitting 위험도가 커지고 데이터 손실이 발생해서 대부분 잘 하지는 않음
Oversampling
소수 class의 데이터를 복사해서 다른 class들의 데이터 양과 비슷하게 맞춘다.
Algorithm oversampling
SMOTE
- 소수 class에서 각각의 샘플들에서 KNN을 진행한다.
- 그 이웃들 사이에 선을 그어 무작위 선을 생성한다.
-> Tabular data에서 사용하는 기법
Image에서는 사용하지 않음
ADASYN
Cost sensitive learning
수가 적거나 분류하기 어려운 데이터에 대해서는 큰 가중치를 부여하고 수가 많고 분류하기 쉬운 데이터에 대해서는 작은 가중치를 부여하는 방식. 데이터 생성이 없다.