241014 TIL #514 AI Tech #49 시계열 데이터로 접근

김춘복·2024년 10월 14일
0

TIL : Today I Learned

목록 보기
516/575

Today I Learned

문제를 시계열 데이터로 접근해서 해결하는 방법에 대해서 파보고 있다.


시계열 데이터로 접근

배경

  • 데이터를 단순화해서 위도+경도+면적이 같은 계약을 같은 아파트로 보면, 이 대회는 결국 2019~2023년의 데이터로 2024년의 전세 실거래가를 예측하는 시계열 접근 방식이 필요하다고 생각한다.

  • 위도+경도+면적이 같은 데이터에선 지하철, 공원, 학교, 건물나이까지 다 같다. (층수는 다를 수 있지만 큰 상관관계는 보이지 않았으므로 넘어간다)

  • 즉, 금리와 거래일을 제외하고 모든 데이터는 이미 다 최근 전세가격(deposit)에 반영되어있다.

접근방법

  1. 우선 위도+경도+면적이 같은 데이터끼리 묶어, 최근 거래가격과 그 거래의 거래일을 저장해둔다.(단, 가격차이가 너무 많이나는 공공임대 추정 계약은 제외)
  2. train의 아파트를 위도+경도+가격으로 클러스터링한다.
  3. 각 군집별로 2019~2023년 평균 전세가격(or 평당가격?)의 추이를 시계열로 정리한다.
  4. 3의 시계열 데이터와 금리를 LSTM을 이용해서 훈련시켜 2024년의 가격 변화를 파악한다.
  5. test에서 전세가 추정은 가장 최근 전세가격에 그 계약일~현재계약일 사이의 가격 변화율을 곱해서 최종 값을 추정한다.

    ex) test가 2024/05/01의 거래이고, train에서 찾을 수 있는 위도+경도+면적이 같은 가장 최근 계약이 2022/08/23이면 그때의 계약 가격에 기간동안 변화율을 곱해서 구한다.

  • 최근 거래가가 없는 test의 데이터들은 다른 모델을 이용해서 추정한다.
  • test는 24년 6월데이터가 있지만 금리는 5월까지 밖에 없으므로 결측치 보충 필요
  • 계약유형과 층수 데이터는 좀 더 고민해봐야한다.

진행 후

  • regression 방법으로는 생각보다 진행이 안됐다. 금리와 avg_deposit이 0.2의 상관관계가 있어서 24년의 금리가 떨어지면서 deposit도 급하게 떨어지는 추세가 나와서 다른 방법을 알아보는 중.

  • ARIMA 방식이 연속성도 있고 잘 나오는 것 같아서 이부분을 좀더 파보려한다.


피어세션

  • 1km(or 500m) 내에 지하철, 학교(초중고), 공원의 개수를 각각 가중치를 곱해서 점수를 내는 방식으로 피처를 생성해보려 한다.

  • 행정동 데이터를 못쓰니 격자(grid)무늬로 지역을 나눠서 클러스터링 한 후 각 클러스터별로 평균(or median) 전세가격을 대표값으로 만들어서 피쳐 생성

  • 중복데이터, 공공임대 추정 데이터를 따로 모아서 test에 매칭되는 위도+경도+크기의 데이터가 있으면 특별관리해서 매칭하는 방법.

profile
Backend Dev / Data Engineer

0개의 댓글