데이터 취업 스쿨 스터디 노트 -(60) 신용카드 부정 사용자 검출

테리·2024년 8월 22일
0

실습

데이터 불러오기 및 파익

데이터 분리

단순한 첫 시도

분류기의 성능을 리턴하는 함수

성능을 출력하는 함수

LogisticRegression

DecisionTree

RandomForest

LGBMClassifier

함수 추가로 더 만들어서 한번에 평가 비교하기

  • 모델과 데이서 성능 출력함수
  • 다수의 모델 성능을 정리해서 데이터 프레임으로 반환하는 함수

    RandomForest와 LightGBM이 가장 좋다.

데이터를 정리해서 다시 찾아보자

StandardScaler 적용

모델에 다시 평가

ROC 커브

log scale 시도

Amount 컬럼의 분포가 비교적 넓게 변함.

다시 데이터의 Outlier 정리해보기

원하는 컬럼의 outlier 값의 인덱스를 파악하는 코드

outlier 제거

outlier 제거하고 데이터 나누기

SMOTE Oversampling

SMOTE 적용

데이터 증강효과 확인

recall은 확실히 모두 좋아진다

0개의 댓글