[통계] 불균형 데이터 다루기

hyun·2022년 8월 31일

KHUDA 스터디 통계

0

📚 과소표본추출

📚 과잉표본추출과 상/하향 가중치

📚 데이터 생성

통계

목록 보기

35/37

데이터가 너무 적을 때, 예측 모델링 성능을 향상할 방법을 살펴보자.

📚 과소표본추출

다수에 해당하는 데이터 클래스에서 과소표본추출을 통해 0과 1의 비율을 맞출 수 있다.
이는 다수의 클래스는 중복된 데이터가 많을 것이다라는 개념인데, 생각해보면 당연하게 더 많은 쪽에 치우친 결과가 주어질 수밖에 없다.

📚 과잉표본추출과 상/하향 가중치

과소표본추출의 한계는 데이터를 버리는 것이나 마찬가지라, 모든 정보를 활용하지 못한다는 점이다.
소수 클래스가 너무 적다면 더더욱 이런 일이 일어날 수 있다.
이럴 때, 부트스트랩 등을 통해서 과잉표본추출(업샘플링) 등을 시행해야 한다.

다만 가중치를 잘 정하면 표본이 작을 때나 클 때나 잘 해결할 수 있다.

📚 데이터 생성

부트스트랩과 비슷하지만 기존 데이터를 살짝 바꿔 새로운 데이터를 만드는 데이터 생성 방법이 있다.
기존 데이터와 비슷하지만 좀 더 다양한 데이터를 통해 더 로버스트한 모델을 만드는 것.
SMOTE 알고리즘이 이에 해당한다고 한다.

🚨 데이터에 불균형이 있으면 보통 어느 한쪽의 클래스를 분류하는 것에 더 높은 점수를 주게 되어있고, 이를 평가 지표에 반영해야 한다.

[데이터 과학을 위한 통계학] 을 읽고 정리한 내용입니다.

이전 포스트

[통계] 분류 모델 평가

다음 포스트

[통계] 비지도학습

0개의 댓글

관련 채용 정보

프론트엔드 개발자(신입)

프론트엔드 개발자로서 국내 최대 크리에이티브 플랫폼 스터닝에서 UX/UI 협업 및 웹 서비스 개발을 통해 창작자의 가치를 실현하는 데 기여해보세요. React, Typescript, Next.js와 같은 기술을 활용하며 유연한 근무 환경에서 업무에 몰입할 수 있습니다.

웹 프론트엔드 개발

타다와 함께 대한민국 모빌리티 시장을 혁신하며, 웹 프론트엔드 개발자로서 앱 내 화면을 개발할 기회를 잡으세요. React 및 TypeScript로 동작하는 유연한 개발 환경에서 동료들과 함께 문제를 해결하며 성장할 수 있는 기회가 기다립니다.

[미뇽맨션] 인형 브랜드 앱 개발자 (신입 3년이하)

귀여운 인형들이 가득한 미뇽맨션에서 앱 개발자로 새로운 브랜드 경험을 함께 만들어보세요! 다양한 기술적 도전에 참가하며 기획 초기부터 성장을 도모할 수 있는 기회를 제공합니다.