-
3/28 : 프로젝트 팀 선정
-
3/30 : 프로젝트 탐색
-
3/31 : 프로젝트 선정
- Impact : 이 프로젝트가 얼마나 임팩트가 있는가?
- Confidence : 이 프로젝트를 성공적으로 완료할 자신감은 어느정도인가?
- Ease : 이 프로젝트는 얼마나 쉬운가?
-
4/1 ~ 4/4 : 데이터 이해, 분류모델 활용을 위한 칼럼 선정
-
4/4 ~ 4/7 : 분류모델 진행
- 극심한 편향데이터이기 때문에 구매자와 비구매자를 분류한 후 구매자 데이터로 회귀를 진행하려 했으나 먼저 회귀모델을 진행한 팀원으로부터 비구매자 데이터를 포함해야 회귀모델의 성능이 좋아진다는 얘기를 듣고 잠정 중단
-
4/8 ~ 4/9 : 회귀 모델 활용을 위한 칼럼 선정
-
4/10 ~ 4/12 : 인코더, 회귀모델 선정
- LabelEncoder VS OneHotEncoding ->LabelEncoder 사용
- 선형, 2차, 3차, RF, GB, XGB, LGBM 성능 확인(LabelEncdoer) -> 트리계열 성능 우세 -> XGB
-
강사님 피드백(4/12)
- 회귀모델만 사용하지말고 분류모델로 사용해볼 것
-
4/13 : 샘플데이터 사용가능 여부 검증, 팀원코드 종합
- 데이터가 고루분포되어 train, test 전체를 사용한 값과 비슷한 결과가 나옴 -> 샘플 사용
- 팀원코드 종합 -> LGBM_CLF + RF_REG 사용
-
4/14 : 스케일러 선정
- None, Standard, MinMax비교 -> LGBM(None) 선정