Kaggle Bike Demand Prediction Review

Surf in Data·2023년 4월 6일
1

1. 프로젝트 개요📋

서울대학교에서 진행하는 빅데이터 핀테크 과정을 진행하며 기계학습 수업을 통해 진행한 ML 프로젝트에 관해 리뷰 해보고자 한다.

먼저 주제를 선정하는 과정에서 이미 분류에 관한 프로젝트는 한적이 있어 이번에는 회귀에 관한 분석을 목표로 진행하였고 아래 캐글의 data를 통해 분석을 진행하였다.

[kaggle Bike Sharing demand]
https://www.kaggle.com/competitions/bike-sharing-demand/overview

이번 프로젝트를 진행하며 다음과 같은 목표를 설정해두고 분석을 진행하였다.

프로젝트 목표
1. 캐글 Leader board의 상위권에 들도록 분석해보자
2. 최대한 다양한 모델을 사용해보고 해당 모델에 대한 하이퍼파라미터 최적화와 모델의 해석을 진행해보자
3. 프로젝트의 발표자료를 시각화 시간에 배운 파이썬 라이브러리인 Streamlit을 통해 제작해보자

프로젝트 기여사항
1. EDA
2. 해당 프로젝트에서 사용한 모든 모델에 대한 Baseline+Optuna code 작성
3. Streamlit의 각 페이지의 초안 작성

2. 프로젝트 내용📁

해당 프로젝트의 모든 내용은 Streamlit을 통해 제작후 배포 완료하였으며 아래 링크를 통해 확인할 수 있으며 분석코드와 Streamlit 제작 코드는 아래 깃허브 링크를 통해 확인할 수 있다.

[streamlit]

[github]

3. 프로젝트 후기📌

  • tabular data에 적용 가능한 여러 회귀 모델을 사용해보고 해당 결과를 해석할 수 있었다.
  • 해당 프로젝트 전에는 하이퍼 파라미터 튜닝을 GridSearch와 베이지안 최적화를 사용했지만 처음으로 Optuna 패키지를 사용하여 진행하였다.(사용하는데 편리하고 매우 직관적이여서 앞으로 애용할 예정이다.)
  • 보통 Tabular dataset에서는 딥러닝은 좋지 못한 성능을 보여주는데 이번에는 Kaggle 신약 개발 대회에서 리더보드의 상위권 대부분이 사용한 모델인 TABNET을 사용해보았다.(사실 모델을 사용해보았다는데 의미를 두었다. 모델과 하이퍼파라미터에 대한 공부 시간이 부족했다. 추후 기회가 된다면 다시 공부할 예정!)
  • 데이터 분석 자료를 PPT가 아닌 Streamlit으로 제작하였는데 확실히 PPT보다 가독성도 좋고 특히 EDA과정을 plotliy를 통해 발표하면서 즉각적으로 볼 수 있어 좋았다.(교수님께서도 발표자료를 Stramlit으로 만든것에 대해 👍을 날려주셨다.)
profile
study blog

0개의 댓글