

레이블이 불균등한 데이터 세트를 학습 시킬때, 성능의 문제가 생길 수 있는데 이를 해결하기 위한 방안

일반적으로 오버샘플링을 많이 한다
언더샘플링: 많은 레이블을 가진 데이터 세트를 적은 레이블을 가진 데이터 세트 수준으로 감소
오버샘플링: 적은 레이블을 가진 데이터 세트를 증식
오버 샘플링의 대표적으로 SMOTE 방법이 있다. 이 방법은 적은 레이블 데이터 세트의 K 최근접 이웃(KNN)을 찾아서 적은 레이블 데이터와 일정 차이가 나는 새로운 데이터를 생성
