[ML Study 2022] 1주차

Everafter·2022년 10월 4일
0

ML Study 2022

목록 보기
1/10

PROBLEM

Problem info

Competition

서울시 따릉이 대여량 예측 경진대회 (DACON)

Theme

Data preprocessing & basic ML

metric

RMSE

notes

  • 기온, 풍속, 습도 등의 데이터를 활용해 시간별 따릉이 대여량을 예측하는 regression 문제입니다
  • 데이터의 크기는 크지 않으나 missing value들이 많아 적절한 전처리 과정이 필요합니다
  • 모델 성능보다 pandas를 활용한 데이터 전처리에 더 신경을 써주시면 될 것 같습니다

refer

Review

  • 첫 과제라 기본적인 전처리와 모델링만 수행하였다.
  • 시각화 그래프 통일성과 모델 성능을 위해 Z-scaling을 진행하였다.
  • 별도의 feature engineering이나 encoding은 진행하지 않았다. 'hour' column이 엄연히 카테고리형 변수이므로 one-hot encoding을 진행하기도 하였는데, 큰 성능 상승은 없었다. 다른 스터디원 분들 중 24시간을 4~5개의 그룹으로 묶어 feature을 만들어내 유의미한 성능 개선을 이뤄내신 분이 계셨다.
  • imputing에 대해 논의가 됐었는데 여러 방식이 거론됐었다. KNN이 유망해보였으나, 실제로 도입하신 분 코드에선 성능개선이 없었다. 다른 분 코드에선 Interpolation이 무난한 성능을 보였다. 다만 데이터가 시계열이란 보장이 없어 이러한 방법론의 적용에 좀 더 신중했어야 할 것 같다. 본인은 그냥 mean inputer로 대충 때웠는데, 나중에 'hour'별로 그룹화 한 뒤 그룹 내 mean 값으로 imputing을 하면 합리적이겠단 아이디어가 떠올랐다. 코드에 오류가 떠서 적용은 못해봤지만 다음 기회에 사용해볼만한 아이디어.
  • 모델은 대부분 random forest를 사용했다. 나는 XGBoost로 했는데, 거기서 거기인 듯 하다.
  • 스터디원 대부분이 44점대, 난 46점대 RMSE 점수를 얻었는데 대회 상위권은 30점대 초반에 분포돼있었다. 코드가 궁금해지는데, 아마 모델 차이가 큰 듯 하다.
  • 7월에 처음 분석 입문하고 1~2달 만에 다시 코드 짜는게 어색해서 시간이 좀 걸렸다. 회차마다 발전하는 모습 보이자.

STUDY

Chapter

[파이썬 머신러닝 완벽 가이드] - 1장 파이썬 기반의 머신러닝과 생태계 이해

Review

  • Python ML 개발 환경 구성 - 본인은 WSL에 Ubuntu 깔아서 VSCode에 연동해 사용하고 있다. 매우 만족스럽다.
  • Numpy의 활용
  • Pandas의 활용

CODE

Github

0개의 댓글