221107 TIL 캐글 bike sharing demand 데이터 수업을 듣고. 캐굴캐굴 스터디 첫 시작, 미니프로젝트3 그리드서치 성공, 피어evaluation

hyemin·2022년 11월 7일

TIL

목록 보기
21/51

221107 MON
사실(Fact) : 캐글의 bike sharing demand 데이터를 사용하여 EDA 부터 평가까지 배웠다. 특히 RMSLE를 새롭게 배웠다.
느낌(Feeling) : 이 데이터는 오차로 보기 때문에 점수가 낮아야 좋은 것이라는 것! 그런데 빼야 하는 컬럼을 고르는게 아직 헷갈린다.
교훈(Finding)

  • 다른 데이터를 시작할 때도 데이터셋을 살펴보면서 호기심을 갖고 시작하자!
  • 미니프로젝트 Evaluation을 확인하지 못한 것이 허를 찔린 기분이었다. 점수를 내는 것에만 집중했는데, 결과를 어떻게 내야할지 고민의 시간이 필요하다고 느꼈다.

캐굴캐굴 스터디

  • datetime으로 년, 월, 일 정도까지는 바꾸고 파생변수로 해주는게 점수를 높이는데 영향을 준다.
  • submit 파일을 만들 때 value 값들이 맞지 않아서 오류를 자주 겪었는데, predict 값에 X_test값을 잘 넣어줬는지, 그리고 매 순간 shape 값을 잘 확인해야 겠다고 생각했다.
  • Evaluation 방법을 확인하고 시작해야겠다.
  • train, test를 concat하고 전처리

미니 프로젝트3 할 때 그리드서치를 실패했다.
그리고 왜 모델이 DecisionTree로 계속 들어가는지 이상했는데, 디시젼트리 변수도 model에, 랜덤포레스트도 model에 담아뒀어서 담는 변수를 model, random_model로 바꾸었다.
랜덤 포레스트 모델로 그리드서치를 돌렸는데, 이번에는 성공했다.
하지만 랜덤포레스트 스코어는 0.6213398922464277, 결정나무 cross_val_score는 0.5950515343171704, xgboost는 0.6035932632170715,
추가로 오늘 한 랜덤 포레스트 - 그리드서치 한 값은 0.6034727102365893 이다. 아마 캐글 제출해도 큰 변동은 없지 않을까 싶다.


Peer Evaluation
미드 프로젝트 동료들의 피드백을 받아보았다.
내가 생각한 나와 동료들이 생각한 나의 점수가 얼마나 차이가 나는지 보는게 흥미로웠다.
내가 발견하지 못하는 장점을 동료들이 들어주어 그 부분은 또 어떻게 다듬어 나갈지 생각하게 되었다.
또 내가 놓쳤거나 아쉬웠던 부분들도 어떻게 발전시킬지 생각을 하게 된 좋은 피드백이었다. 너무 고맙다.

profile
아직 고쳐나가는 중.

0개의 댓글