
캐글, 데이콘 등의 데이터 기반 대회 플랫폼과 비슷하게 Upstage에서 자체 운영하는 플랫폼인 AI Stages에서 지난 일주일 동안 경진대회에 참여했고, 막을 내렸다.
이번 글은 본 대회에 대한 회고이다. 즉, 나에 대한 피드백이다. 내가 뭘 잘했고 뭘 잘하지 못했을까? 어떤 점에서 아쉬웠고 그로부터 성장했을까?

부동산은 의식주에서의 주로 중요한 요소 중 하나로, 이러한 부동산은 아파트 자체의 가치도 중요하고, 주변 요소(강, 공원, 백화점 등)에 의해서도 영향을 받아 시간에 따라 가격이 많이 변동한다. 사람들은 더 싼 가격에 좋은 집을 찾고 싶고, 적절한 가격에 집을 판매하기를 원한다. 이러한 시세를 예측하게 되면 적정한 가격에 구매/판매 할 수 있다.
House Price Prediction 경진대회는 주어진 데이터를 활용하여 서울의 아파트 실거래가를 효과적으로 예측하는 모델을 개발하는 대회이다.
4개의 데이터셋이 제공된다.
- 아파트 실거래가 데이터
- 국토교통부 제공, 아파트의 위치, 크기, 건축 연도, 주변 시설 및 교통 편의성과 같은 다양한 특징들 포함- 지하철역 데이터
- 버스정류장 데이터
- 평가 데이터
팀 구성:
5인4인 1팀 (총 8팀)
컴퓨팅 환경: Upstage GPU 서버 환경 제공 (VSCode와 SSH로 연결하여 사용)
협업 환경: Slack, GitHub
의사 소통: Zoom, Slack, 카카오톡
박주혁(본인): 모델 리서치, 모델 성능 실험, 모델 최적화, 모델 앙상블
김정헌(팀장): EDA, 시계열 데이터 전처리, 발표
유현지: EDA, 데이터 전처리, 모델 성능 실험
지수영: 데이터 전처리, 모델 성능 실험
Public #5
RMSE: 16714.4593

Private #7
RMSE: 14179.4697

우리 팀은 target(집값)이 높은 데이터에 대한 예측력이 떨어지는 것을 확인, target이 높은 데이터에 대한 예측력을 올리기 위해 feature importance, 상관관계, EDA 등을 근거로 '전용면적' feature를 key로 가정하였다.
전용면적을 4개의 구간으로 나누어 데이터 분할, 각 데이터마다 모델을 학습해 총 4개의 독립 모델을 구축했고, 각 모델의 predict를 합치는 방식으로 예측했다.
4개의 독립 모델은 성공적이었다.
각 모델은 전용면적이 낮은 데이터, 높은 데이터에 맞춰서 학습했고, 예상대로 target이 높은 데이터를 포함, 모든 범위에서 예측력이 상승했다.
(Public RMSE: 18271.0504 -> 16714.4593)
4개의 독립 모델을 이용해
대회 종료 3시간 전 Public 8위(최하위) -> 대회 종료 직전 Public 5위까지 끌어올릴 수 있었다.
그러나
4개의 독립 모델은 결과적으로 실패했다.
'Public RMSE 개선'이라는 단면적인 관점에선 성공적이었으나, 전용면적 feature 하나만을 기준으로 target을 설명하려 했고, 절대로 충분하지 못한 EDA, 실험 횟수 등의 이유들이 합쳐져 Private 데이터에 약한 모습을 보였다.
그 결과로 shake-up이 크게 일어나지 않은 대회였음에도 2개의 순위를 내주며 뒤에서 2등이라는 만족스럽지 않은 결과를 얻었다. Public RMSE 대비, 모든 팀 중에서 Private을 가장 설명하지 못한 팀이 되었다.