개인 회고 보고서
나는 내 학습목표를 달성하기 위해 무엇을 어떻게 했는가?
이번 경진대회에서 나의 학습목표는 부동산 실거래가 예측 모델을 성공적으로 구축하는 것이었습니다. 이를 위해 나는 데이터 수집, 전처리, 모델링, 하이퍼파라미터 튜닝 등의 전 과정을 체계적으로 학습하고 적용하고자 했습니다.
개인 학습 측면
-
데이터 수집 및 전처리
- 서울열린데이터광장과 한국은행경제통계시스템에서 외부 데이터를 수집하여 기존 데이터셋을 보완하는 작업을 주도했습니다.
- Geocoding을 통해 결측치가 많은 좌표 데이터를 채워 넣는 과정을 수행하였습니다.
- 데이터의 결측치를 처리하고, 파생 변수를 생성하는 데 집중하여 데이터의 질을 높였습니다.
-
모델링 및 하이퍼파라미터 튜닝
- PyCaret 라이브러리를 사용하여 다양한 모델을 비교하고, 최적의 모델을 선정하는 과정을 학습했습니다.
- Optuna를 활용하여 하이퍼파라미터 튜닝을 수행하였고, 이를 통해 모델의 성능을 극대화하고자 노력했습니다.
공동 학습 측면
- 팀 내 협업
- 팀장으로서 팀의 기본적인 목표를 설정하고, 각 팀원의 역할을 분담하여 프로젝트를 체계적으로 진행할 수 있도록 리딩했습니다.
- 정기적인 회의를 통해 진행 상황을 공유하고, 문제 발생 시 즉시 해결할 수 있도록 하였습니다.
- 팀원들의 의견을 존중하며, 각자의 강점을 최대한 활용할 수 있도록 유도했습니다.
전과 비교해서, 내가 새롭게 시도한 변화는 무엇이고, 어떤 효과가 있었는가?
이전 경진대회와 비교하여 이번 경진대회에서 새롭게 시도한 변화는 외부 데이터를 적극적으로 활용하여 파생 변수를 생성하는 것이었습니다. 이를 통해 기존 데이터의 한계를 보완하고, 모델의 예측력을 향상시킬 수 있었습니다.
효과
- 데이터의 질 향상: 외부 데이터를 활용하여 기존 데이터의 결측치를 보완하고, 새로운 파생 변수를 생성함으로써 데이터의 질을 크게 향상시킬 수 있었습니다.
- 모델의 성능 향상: 파생 변수를 통해 모델의 예측력을 향상시킬 수 있었고, 특히 Extra Trees Regressor 모델에서 좋은 성능을 얻을 수 있었습니다.
마주한 한계는 무엇이며, 아쉬웠던 점은 무엇인가?
한계
- 데이터 결합의 어려움: 외부 데이터를 수집하여 기존 데이터와 결합하는 과정에서 일부 데이터는 완벽하게 결합되지 못했습니다. 특히, 특정 기간이나 지역에 대한 데이터가 부족하여 모델의 예측력이 제한되었습니다.
- 모델 해석의 어려움: 모델의 성능은 좋았지만, 예측 결과를 해석하고 이해하는 데 어려움이 있었습니다. 이는 비즈니스 측면에서 모델을 활용하는 데 있어 중요한 부분이므로, 모델의 해석 가능성을 높이는 방법을 더 고민할 필요성을 느꼈습니다.
아쉬웠던 점
- 모델 앙상블의 효과 부족: 여러 모델을 앙상블하여 성능을 높이려 했으나, 단일 모델인 Extra Trees Regressor가 더 좋은 성능을 보여 앙상블의 효과를 크게 보지 못했습니다.
- 시간 관리: 프로젝트 진행 중 시간 관리가 부족하여 일부 계획된 작업을 완료하지 못한 점이 아쉬웠습니다. 특히, 더 많은 외부 데이터를 수집하고 결합하는 데 있어 시간이 부족했습니다.
한계/교훈을 바탕으로 다음 경진대회에서 시도해보고 싶은 점은 무엇인가?
시도해보고 싶은 점
- 모델 해석 가능성 향상: 모델의 예측 결과를 더 잘 해석하고 이해할 수 있도록, SHAP(Shapley Additive exPlanations)와 같은 모델 해석 도구를 활용하여 모델의 투명성을 높이고, 예측 결과를 쉽게 이해할 수 있도록 할 것입니다.
- 더 많은 외부 데이터 활용: 외부 데이터를 더욱 적극적으로 수집하고, 이를 통해 기존 데이터의 한계를 보완하는 데 집중할 것입니다. 특히, 다양한 경제 지표와 지역별 데이터를 결합하여 모델의 예측력을 향상시키고자 합니다.
- 모델 앙상블 방법론의 개선: 앙상블 방법론을 더 깊이 이해하고, 다양한 앙상블 기법을 적용하여 모델의 성능을 더욱 향상시킬 것입니다. 이를 통해 단일 모델의 한계를 극복하고, 더 높은 예측 정확도를 달성할 것입니다.
- 시간 관리: 프로젝트 진행 중 시간 관리를 더욱 철저히 하여, 계획된 모든 작업을 완료할 수 있도록 할 것입니다. 특히, 중요한 작업에 우선순위를 두고, 효율적으로 시간을 분배하여 프로젝트를 진행할 것입니다.
이번 경진대회는 저에게 많은 교훈을 주었고, 앞으로 더 나은 데이터 분석가로 성장할 수 있는 계기가 되었습니다. 다음 경진대회에서는 이번에 배운 교훈을 바탕으로 더욱 발전된 모습을 보여줄 수 있도록 노력하겠습니다.