이 때 중간값을 형성하기 위한 두개의 소수데이터는 랜덤으로 선택되도록 하며 따라서 KNN 방식을 사용하되 K 값을 1이 아닌 값으로 설정해야 한다. K 값이 1인 경우 계속 같은 데이터가 선택되기 때문에 새롭게 형성되는 데이터들이 같은위치에 뭉쳐서 나타나게 되는 문제가 생긴다.
Bordline-SMOTE
소수와 다수 데이터가 적절히 섞인 borderline을 찾는다
K = 5 라고 가정 할 때,
1) "Safe"관측치
소수데이터를 기준으로 주변의 5개의 데이터를 확인한 결과, 이렇게 소수데이터만 존재하는 것은 Borderline이 아니다.
2) "Danger" 관측치
다수와 소수가 섞인 이와같은 형태를 Borderline이라고 한다.
3) "Noise" 관측치
다수 클래스만 존재하는경우 이 또한 Borderline이 아니다.
이렇게 선정된 "Danger"관측치(그림상의 검정색 데이터)에 대해서 SMOTE 방식을 적용하여 새로운 소수 데이터셋(녹색)을 만든다.