데이터가 너무 적을 때, 예측 모델링 성능을 향상할 방법을 살펴보자.
📚 과소표본추출
- 다수에 해당하는 데이터 클래스에서 과소표본추출을 통해 0과 1의 비율을 맞출 수 있다.
- 이는 다수의 클래스는 중복된 데이터가 많을 것이다라는 개념인데, 생각해보면 당연하게 더 많은 쪽에 치우친 결과가 주어질 수밖에 없다.
📚 과잉표본추출과 상/하향 가중치
- 과소표본추출의 한계는 데이터를 버리는 것이나 마찬가지라, 모든 정보를 활용하지 못한다는 점이다.
- 소수 클래스가 너무 적다면 더더욱 이런 일이 일어날 수 있다.
- 이럴 때, 부트스트랩 등을 통해서 과잉표본추출(업샘플링) 등을 시행해야 한다.
- 다만 가중치를 잘 정하면 표본이 작을 때나 클 때나 잘 해결할 수 있다.
📚 데이터 생성
- 부트스트랩과 비슷하지만 기존 데이터를 살짝 바꿔 새로운 데이터를 만드는 데이터 생성 방법이 있다.
- 기존 데이터와 비슷하지만 좀 더 다양한 데이터를 통해 더 로버스트한 모델을 만드는 것.
- SMOTE 알고리즘이 이에 해당한다고 한다.
🚨 데이터에 불균형이 있으면 보통 어느 한쪽의 클래스를 분류하는 것에 더 높은 점수를 주게 되어있고, 이를 평가 지표에 반영해야 한다.
[데이터 과학을 위한 통계학] 을 읽고 정리한 내용입니다.