머신러닝 프로젝트
주제 : Google Analytics Customer Revenue Prediction
개요
- 비즈니스에는 파레토의 법칙(80:20)이 큰 비중을 차지한다
- 수익 극대화를 위해 적절한 마케팅은 필수적이다
목표
데이터 크기
- train : 2016/08/01 ~ 2018/04/30 동안의 로그데이터(23.67GB)
- 행 : 170만
- 열 : 13개(JSON 포함) -> 150개(JSON 파싱)
- test : 2018/05/01 ~ 2018/10/15 동안의 로그데이터(7.1GB)
데이터 정보
- 고객들의 로그 데이터
- 구매자는 약 1%, 극심한 편향 데이터
절차
진행상황
- 3/28 : 프로젝트 팀 선정
- 3/30 : 프로젝트 탐색
- 3/31 : 프로젝트 선정
- Impact : 이 프로젝트가 얼마나 임팩트가 있는가?
- Confidence : 이 프로젝트를 성공적으로 완료할 자신감은 어느정도인가?
- Ease : 이 프로젝트는 얼마나 쉬운가?
- 4/1 ~ 4/4 : 데이터 이해, 분류모델 활용을 위한 칼럼 선정
- 4/4 ~ 4/7 : 분류모델 진행
- 극심한 편향데이터이기 때문에 구매자와 비구매자를 분류한 후 구매자 데이터로 회귀를 진행하려 했으나 먼저 회귀모델을 진행한 팀원으로부터 비구매자 데이터를 포함해야 회귀모델의 성능이 좋아진다는 얘기를 듣고 잠정 중단
- 4/8 ~ 4/9 : 회귀 모델 활용을 위한 칼럼 선정
- 4/10 ~ 4/X : 회귀모델 진행 중
분류모델
- RandomForestClassifer
- 구매자와 비구매자의 비율이 같으면 0.93~0.96의 높은 성능
- 50만 샘플링한 데이터는 5325명의 구매자를 가지고 있음
- 50만 데이터를 기준으로 학습 시, 구매자 분류 성능이 0.23으로 감소
- 예정 : 칼럼 재선정, 오버샘플링(SMOTE)
회귀모델
- RandomforestRegressor
- 회귀모델 제작 후 통합 데이터와 수익성 데이터을 비교
- 수익성 데이터만 포함한 모델의 성능이 좋다면 분류모델 제작