중간에 추가된 일
중간에 취소된 일
받은 데이터에 비해 우리가 사용하려는 범위가 1~30레벨 유저 대상이라 생각보다 데이터가 쪼그라들어서
총 데이터 47,967,325행📉
1~30레벨 유저 데이터 4,370,823행📉
중복된 유저아이디 기준으로 통합시 데이터 217,387 행📉
이중 잔존유저 79,522 / 이탈유저 137,865📉
이만큼 줄어들었다😭
결과적으로 데이터도 줄고 잔존과 이탈유저의 균형이 불균형하여 오버샘플링 기법인 smote를 사용하였고 설 연휴부터 지금까지 f1-score를 0.9대로 맞추기위해 노력 중이다..
0.8대에서 벋어나질 못하고 있는데 이제 슬슬 결과를 내야 할 타이밍이라 그냥 사용해도 되는지 튜터님께 내일 오전에 확인하고 더하던지.. 말던지를 정해야 한다.