[ZB 데이터스쿨 11기]14주차 학습노트

InSung-Na·2023년 4월 10일
0

Study Note

목록 보기
14/18
post-thumbnail

머신러닝 프로젝트

주제 : Google Analytics Customer Revenue Prediction

개요

  • 비즈니스에는 파레토의 법칙(80:20)이 큰 비중을 차지한다
  • 수익 극대화를 위해 적절한 마케팅은 필수적이다

목표

  • 고객별 수익 예측

데이터 크기

  • train : 2016/08/01 ~ 2018/04/30 동안의 로그데이터(23.67GB)
    • 행 : 170만
    • 열 : 13개(JSON 포함) -> 150개(JSON 파싱)
  • test : 2018/05/01 ~ 2018/10/15 동안의 로그데이터(7.1GB)

데이터 정보

  • 고객들의 로그 데이터
  • 구매자는 약 1%, 극심한 편향 데이터

절차

    1. 데이터 수집
    1. EDA
    • 2-1. 1차 전처리
    • 2-2. 2차 전처리
    1. 모델링

진행상황

  • 3/28 : 프로젝트 팀 선정
  • 3/30 : 프로젝트 탐색
  • 3/31 : 프로젝트 선정
    - Impact : 이 프로젝트가 얼마나 임팩트가 있는가?
    - Confidence : 이 프로젝트를 성공적으로 완료할 자신감은 어느정도인가?
    - Ease : 이 프로젝트는 얼마나 쉬운가?
  • 4/1 ~ 4/4 : 데이터 이해, 분류모델 활용을 위한 칼럼 선정
  • 4/4 ~ 4/7 : 분류모델 진행
    - 극심한 편향데이터이기 때문에 구매자와 비구매자를 분류한 후 구매자 데이터로 회귀를 진행하려 했으나 먼저 회귀모델을 진행한 팀원으로부터 비구매자 데이터를 포함해야 회귀모델의 성능이 좋아진다는 얘기를 듣고 잠정 중단
  • 4/8 ~ 4/9 : 회귀 모델 활용을 위한 칼럼 선정
  • 4/10 ~ 4/X : 회귀모델 진행 중

분류모델

  • RandomForestClassifer
  • 구매자와 비구매자의 비율이 같으면 0.93~0.96의 높은 성능
  • 50만 샘플링한 데이터는 5325명의 구매자를 가지고 있음
  • 50만 데이터를 기준으로 학습 시, 구매자 분류 성능이 0.23으로 감소
  • 예정 : 칼럼 재선정, 오버샘플링(SMOTE)

회귀모델

  • RandomforestRegressor
  • 회귀모델 제작 후 통합 데이터와 수익성 데이터을 비교
  • 수익성 데이터만 포함한 모델의 성능이 좋다면 분류모델 제작

0개의 댓글