ML-Regression Fast-Up Report
1. Abstract
- Goal of the Competition
- Timeline
- 3월 27일 - 대회 시작
- 4월 2일 - 대회 마감
- Description of the work
- 2007년부터 2023년 6월까지의 서울시 아파트 매매 데이터를 통해 모델을 학습시켜 2023년 7월~9월의 아파트 매매 가격을 예측하도록 한다.
2. Process : Competition Model
- Describe the structure of your System.
- model1
- 2020년 이후의 데이터를 선별하고, 그 중 평균 매매가 상위 5개 구는 고가형으로 판단, 별도의 LGBMRegressor를 사용해 학습
- 나머지 20개 구에 대한 데이터는 저가형으로 판단, 또 별도의 LGBMRegressor를 사용해 학습
- 각 모델에서 나온 예측 결과를 concat하여 최종 결과 생성
- model2
- 전체 데이터에 대해 RF를 사용해 선별된 feature를 가지고 LGBM을 사용해 모델을 생성 및 학습
3. Process : Issues
- Describe the issue that your team faced during the project.
- 최고점수를 보인 모델을 잘 저장하지 못해 문제 발생
- 참여도가 떨어지는 팀원이 있었음
- Describe the reason for the issue.
- 모델 파이프라인을 잘 생성하지 못한 채로 실험을 진행
- 세대차이..?
- Describe the possible solution to imporve your project.
- 모델 파이프라인을 잘 설계해서 체계적으로 실험을 해야할 필요가 있음
4. Role
- Describe your role with task in your team.
- 데이터 수집, 데이터 전처리, EDA, 모델링 및 파라미터 튜닝 결과 정리 및 보고서 작성
- Describe papers or book chapeters you found relevant to the problem, references to see.
- Explain which are relevant for your Project.
- 경기선행지수는 서울시 아파트 거래가와 매우 큰 상관관계를 보인다.
5. Results
- Write the main result of Competition
- 모델 1 : Public (RMSE : 17913.7317), Private (RMSE : 15947.9725)
- 모델 2 : Public (RMSE : 15234.6503), Private (RMSE : 12713.1653)
- Final standings of the Leaderboard
- Public 3등(RMSE : 15234.6503), Private 4등(RMSE : 12713.1653)
6. Conclusion
- Describe your running code with its own advantages and disadvantages, in relation to other groups in the course.
- 상위 5개구에 대해 따로 모델을 생성하였기 때문에 좀 더 잘 예측할 수 있음
- Sum up your project and suggest future extensions and improvements.
- 데이터가 굉장히 중요한 모델이었다.
- 데이터에 대한 더욱 자세한 분석을 하여 적용한다면 점수가 향상될 것으로 예상