241002 TIL #504 AI Tech #42 수도권 지하철역 - 전세가격 EDA

김춘복·2024년 10월 2일
0

TIL : Today I Learned

목록 보기
506/571

Today I Learned

오늘은 지하철역 EDA에 대해서 더 심화로 들어갔다.


수도권 지하철역 - 전세가격 EDA

할당: @ChoonB

기본 subway 관련 가설

  • 지하철역과 거리가 가까울 수록 가격이 높을 것이다.
  • 가장 가까운 지하철이 무슨역인지가 가격에 영향이 있을 것이다.
  • 특정 거리안에 몇개의 지하철이 있는지가 가격에 영향이 있을 것이다.
  • subway info에서 좌표가 여러번 나오는 경우는 환승역이고, 근처 환승역이 있는지 여부가 가격에 영향을 끼칠 것이다.

EDA용 피처 생성 방법

  • train+test해서 위도경도가 같은 행에 대해 같은 apt_idx 부여
  • BallTree에 Haversine 방식 적용해서 위도경도값이 주어졌을 때 radian으로 거리 계산 코드 작성 issues/3 comment 참고
  • nearest_subway_distance | nearest_subway_idx | num_subway_within_1km | list_subway_idx_within_1km | category_interchange_within_1km | num_subway_within_500m | list_subway_idx_within_500m | category_interchange_within_500m 피처 생성
  • category_interchange_within~ 피처는 (0: 주변에 지하철역 없음, 1: 지하철역 1개 이상이지만 환승역 없음, 2: 지하철역 1개 이상이면서 환승역 포함) 의 기준으로 카테고리를 생성

가설검증

1. 지하철역과 거리가 가까울 수록 가격이 높을 것이다. (검증완)

  • 전세가격과 최근접 지하철역과의 거리는 -0.22의 상관관계가 있다.
    각각 로그 변환시 -0.27로 늘어난다.

  • 평당가격과 최근접 지하철역과의 거리는 -0.29의 상관관계가 있다.
    각각 로그 변환시 -0.41로 매우 강한 상관관계가 보인다.

  • 10km까지 500m 단위로 클래스를 나눠 평균 전세가격과 평균 평당가격을 봐도 가까울 수록 가격이 높게 형성된다.

2. 가장 가까운 지하철이 무슨 역인지가 가격에 영향이 있을 것이다. (아직 미검증)

  • 어떤 역이 근처에있을 때 가장 비싼지 추정해봤으나 아직 좀 더 조사가 필요하다.

3. 특정 거리안에 몇개의 지하철이 있는지가 가격에 영향이 있을 것이다. (검증완)

  • 전세가격과 1km이내 지하철역의 수는 상관계수 0.314987, 평당가격과는 0.419536가 나온다.
    500m로 할 시 상관계수는 0.221344, 0.311769로 오히려 떨어진다.

  • 1km이내 지하철역 수를 클래스로 만들어 평균 전세가격과 평균 평당가격을 봤을때는 강한 상관관계가 보인다.
    평당가격이 오히려 더 설명이 잘되어 보인다.

  • boxplot으로도 강한 연관성을 확인할 수 있다.

4. subway info에서 좌표가 여러번 나오는 경우는 환승역이고, 근처 환승역이 있는지 여부가 가격에 영향을 끼칠 것이다.

  • 주변(1km든, 500m든)에 환승역일경우 환승역이 아닐때보다 평균 전세(및 평당)가격이 높다.
  • 주변에 환승역이 아닌 일반역이 있는 경우, 역이 없을 때보다 평균 전세(및 평당) 가격이 높다.

회고

  • 추후 외부 행정구역 데이터를 공급해준다고 하니 큰 변화가 있을 것 같다.

  • index를 제외한 나머지 열이 모두 동일한 행들을 중복데이터로 여겨서 뺄지, 의미있는 데이터로 볼지에 대해 논의를 해봐야할 것 같다.

  • 연휴 시작이지만 늘어지지말고 코테 준비 열심히해보자!!

profile
Backend Dev / Data Engineer

0개의 댓글