2번째 프로젝트가 드디어 종료되었다.
수도권 아파트 전세 실거래가 예측 모델 대회를 오늘로 마감했다.
결과
Public MAE 3483.0271 4등 -> Private MAE 4279.3377 4등
마지막 앙상블 과정에서 가중평균을 써서 점수를 낮춘 것이 유효했다.
바로 아래 순위인 5위와의 MAE 격차가 90인데,
1위와의 격차가 67, 2위와 29밖에 차이가 안나 더 아쉽다.
하이퍼파라미터 조정 할 시간이 조금만 더 있었다면 좋았을 텐데 아쉽다.
그래도 저번 프로젝트보단 인력이 부족한 상황에서 더 좋은 결과를 얻어서 만족한다.
자세한 개인 회고는 내일 작성할 예정.
지난 프로젝트에서 개선점으로 뽑았던 tool 활용을 직접 활용해보고 프로젝트에 긍정적으로 작용함. 향후 상당히 많은 도움이 될 것 같은 시도들이었음
코드 컨벤션, 깃 컨벤션, 팀 컨벤션 도입으로 체계적인 프로젝트 관리가 가능했다.
지난 프로젝트에선 모델 선정 시 큰 고민 없이 선정했었는데, 이번에는 미리 알아보고 모델을 도입해서 좀 더 잘 다룰 수 있었다.
각자의 아이디어를 서로 논의하며 구체화해 간 과정이 좋았다.
모듈화 된 코드와 서버에 모델 자동화 파이프라인 구축으로 원활한 모델링 작업이 가능했다.
마지막 모델링 단계에서 하이퍼파라미터 조정이나 앙상블을 과정을 좀 더 체계적인 방식으로 수정해 기록을 하면서 제출하는 방식으로 개선하면 좋을 것 같다. 하이퍼파라미터 튜닝 단계에서 체계적인 서치 방식을 도입해 튜닝의 근거를 설명 가능하게 꾸리면 좋을 것 같다.
현재보다 조금 더 다양한 모델을 시도해볼 필요가 있다. 특히 딥러닝 모델에 대한 시도가 부족했다.
프로젝트 초반 피처 추가 모듈화가 이뤄졌지만 마지막 단계에서 결국 csv 파일 공유로 넘어간 점이 아쉬웠고, modeling을 할 때 Feature 선택의 통일성 및 근거를 갖춰야 할 것 같다.
첫 시작부터 피처를 분담해 분석했기 때문에 데이터에 대한 이해가 지엽적으로 형성된 것 같다.
test public score 측정 시 대조군을 확보하지 못하고 여러 실험을 동시에 한 점
슬랙 허들과 줌에서 실시간 소통이 이루어지다보니 git issue에서 토론이 이루어지지 못해 기록이 남지 않아 아쉬웠다. 그리고 github projects를 만들어 각자 작업 관리를 시도해 봤지만 실질적인 활용이 아쉬웠다.