대부분의 분류 알고리즘은 각 클래스의 표본 수가 비슷할 때 각 범주의 특징을 고르게 학습할 수 있다. 하지만 현실 세계의 데이터에서는 특정 클래스의 비중이 극단적으로 작은 경우가 매우 흔하다.
이러한 데이터 불균형 상황에서는 모델이 다수 클래스에 과적합되어,
중요한 소수 클래스에 대한 예측 성능이 크게 저하되는 문제가 발생한다.
-> 대부분의 경우, ‘정상’보다 ‘이상’을 정확히 잡아내는 것이 핵심 목표가 된다.
이때 모델이 모든 샘플을 정상으로 예측하면,
하지만, 불량을 하나도 탐지하지 못하는 실제로는 전혀 쓸모없는 모델이 된다.
따라서 Accuracy는 불균형 데이터에서 신뢰할 수 없는 지표가 된다.
F1 Score = Precision과 Recall의 조화 평균
F1 Score는 소수 클래스 탐지 성능을 균형 있게 평가할 수 있어
불균형 분류 문제에서 가장 널리 사용되는 평가 지표이다.
-> 불균형 데이터에 비교적 강건한 지표
다수 클래스의 샘플을 제거하여 소수 클래스와 비율을 맞추는 방식

다수 클래스에서 무작위로 샘플 제거
장점: 계산 비용이 낮고 빠름
단점:

어떤 관측치 에 대해
를 만족하는 관측치 가 존재하지 않는 경우두 샘플 ( x_i, x_j ) 는 Tomek link를 형성한다.
-> 결정 경계를 더 명확하게 만드는 효과

-> 경계에 중요한 샘플만 남기는 방식

Tomek Links + CNN 결합 방식
-> 불필요한 다수 클래스 샘플을 효율적으로 제거
소수 클래스의 샘플 수를 증가시키는 방법
소수 클래스 샘플을 단순 복제
단점: 소수 클래스에 대한 과적합 위험
(Synthetic Minority Oversampling Technique)
소수 클래스에서 가상의 새로운 샘플 생성

두 점 간 차이 계산

새로운 관측치 생성

모든 소수 클래스에 대해 반복

소수 클래스 샘플을 다음과 같이 구분
이 중 Borderline 샘플에 대해서만 Oversampling 수행
(Adaptive Synthetic Sampling)
Borderline-SMOTE보다 한 단계 더 나아간 방식
다수 클래스 이웃이 많은 샘플일수록 더 많은 synthetic sample 생성
자동(adaptive)으로 생성 비율 조절
학습이 어려운 영역에 집중