221107 TIL 캐글 bike sharing demand 데이터 수업을 듣고. 캐굴캐굴 스터디 첫 시작, 미니프로젝트3 그리드서치 성공, 피어evaluation

hyemin·2022년 11월 7일

목록 보기

21/51

221107 MON
사실(Fact) : 캐글의 bike sharing demand 데이터를 사용하여 EDA 부터 평가까지 배웠다. 특히 RMSLE를 새롭게 배웠다.
느낌(Feeling) : 이 데이터는 오차로 보기 때문에 점수가 낮아야 좋은 것이라는 것! 그런데 빼야 하는 컬럼을 고르는게 아직 헷갈린다.
교훈(Finding)

다른 데이터를 시작할 때도 데이터셋을 살펴보면서 호기심을 갖고 시작하자!
미니프로젝트 Evaluation을 확인하지 못한 것이 허를 찔린 기분이었다. 점수를 내는 것에만 집중했는데, 결과를 어떻게 내야할지 고민의 시간이 필요하다고 느꼈다.

캐굴캐굴 스터디

datetime으로 년, 월, 일 정도까지는 바꾸고 파생변수로 해주는게 점수를 높이는데 영향을 준다.
submit 파일을 만들 때 value 값들이 맞지 않아서 오류를 자주 겪었는데, predict 값에 X_test값을 잘 넣어줬는지, 그리고 매 순간 shape 값을 잘 확인해야 겠다고 생각했다.
Evaluation 방법을 확인하고 시작해야겠다.
train, test를 concat하고 전처리

미니 프로젝트3 할 때 그리드서치를 실패했다.
그리고 왜 모델이 DecisionTree로 계속 들어가는지 이상했는데, 디시젼트리 변수도 model에, 랜덤포레스트도 model에 담아뒀어서 담는 변수를 model, random_model로 바꾸었다.
랜덤 포레스트 모델로 그리드서치를 돌렸는데, 이번에는 성공했다.
하지만 랜덤포레스트 스코어는 0.6213398922464277, 결정나무 cross_val_score는 0.5950515343171704, xgboost는 0.6035932632170715,
추가로 오늘 한 랜덤 포레스트 - 그리드서치 한 값은 0.6034727102365893 이다. 아마 캐글 제출해도 큰 변동은 없지 않을까 싶다.

Peer Evaluation
미드 프로젝트 동료들의 피드백을 받아보았다.
내가 생각한 나와 동료들이 생각한 나의 점수가 얼마나 차이가 나는지 보는게 흥미로웠다.
내가 발견하지 못하는 장점을 동료들이 들어주어 그 부분은 또 어떻게 다듬어 나갈지 생각하게 되었다.
또 내가 놓쳤거나 아쉬웠던 부분들도 어떻게 발전시킬지 생각을 하게 된 좋은 피드백이었다. 너무 고맙다.

hyemin

아직 고쳐나가는 중.

이전 포스트

221105, 221106 TIL

다음 포스트

221107 TIL 캐글 bike sharing demand 데이터 수업을 듣고. 캐굴캐굴 스터디 첫 시작, 미니프로젝트3 그리드서치 성공, 피어evaluation

TIL

221105, 221106 TIL

221108 TIL 로그를 적용하고, 값을 복원하는 것을 배운 날. 천리길 함수의 늪에 빠진 날.

0개의 댓글