Undersampling은 다수 vs 소수 의 데이터 구성에서 여러 방식을 통해 다수쪽의 데이터를 지워나가며 좀 더 명확한 구분을 가능하게 하는 방식이다.
Random undersampling
두 데이터 사이에 아무런 데이터가 없는 link를 만든뒤에 링크에 해당하는 sample을 제거한다.
이 예제의 경우 정상(+) 데이터가 major(다수) 데이터 이므로 tomek link 형성 후 (+)데이터를 삭제한다.
제거 전 vs 후 비교
소수 데이터 전체와 다수데이터 하나로 구성된 서브 데이터 셋을 형성
1-NN(KNN과 동일한 방식) 으로 소수데이터에 가까운 다수 데이터를 선별하고 나머지는 모두 제거함으로써 분류 경계선을 재설정한다.
KNN과 같은 방식이지만 K값을 1외의 값으로 사용할 경우 모든 데이터가 지워지는 문제가 발생하기 때문에 K값은 무조건 1로 설정하고 사용해야 한다.
장점
단점