문제를 시계열 데이터로 접근해서 해결하는 방법에 대해서 파보고 있다.
데이터를 단순화해서 위도+경도+면적이 같은 계약을 같은 아파트로 보면, 이 대회는 결국 2019~2023년의 데이터로 2024년의 전세 실거래가를 예측하는 시계열 접근 방식이 필요하다고 생각한다.
위도+경도+면적이 같은 데이터에선 지하철, 공원, 학교, 건물나이까지 다 같다. (층수는 다를 수 있지만 큰 상관관계는 보이지 않았으므로 넘어간다)
즉, 금리와 거래일을 제외하고 모든 데이터는 이미 다 최근 전세가격(deposit)에 반영되어있다.
ex) test가 2024/05/01의 거래이고, train에서 찾을 수 있는 위도+경도+면적이 같은 가장 최근 계약이 2022/08/23이면 그때의 계약 가격에 기간동안 변화율을 곱해서 구한다.
regression 방법으로는 생각보다 진행이 안됐다. 금리와 avg_deposit이 0.2의 상관관계가 있어서 24년의 금리가 떨어지면서 deposit도 급하게 떨어지는 추세가 나와서 다른 방법을 알아보는 중.
ARIMA 방식이 연속성도 있고 잘 나오는 것 같아서 이부분을 좀더 파보려한다.
1km(or 500m) 내에 지하철, 학교(초중고), 공원의 개수를 각각 가중치를 곱해서 점수를 내는 방식으로 피처를 생성해보려 한다.
행정동 데이터를 못쓰니 격자(grid)무늬로 지역을 나눠서 클러스터링 한 후 각 클러스터별로 평균(or median) 전세가격을 대표값으로 만들어서 피쳐 생성
중복데이터, 공공임대 추정 데이터를 따로 모아서 test에 매칭되는 위도+경도+크기의 데이터가 있으면 특별관리해서 매칭하는 방법.