[혼공머신] 2-1. 데이터 선정하기

Bob Park·2022년 9월 14일
0
post-thumbnail

01-3. 마켓과 머신러닝

“가장 간단한 머신러닝 알고리즘 중 하나인 K-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련합니다.” 박해선(2020)

공시지가 데이터 소개

데이터 선정 이유

  • 1회독에 배운 내용을 새로운 데이터에 접목시켜보는 과정에서 더 깊은 이해가 되기도 하고 인지하지 못했던 내용도 발견할 수 있는 기회가 될 것이라 생각한다.
  • 새로운 기술을 사용했던 데이터에 접목시켜보면 고려해야하는 기술적 이슈를 머신러닝으로 좁힐 수 있어 학습의 질을 높일 수 있다.
  • 데이터의 개수가 충분하고(서울 기준 약 900,000 rows), 계량형 변수와 명목형 변수가 공존하여 분류와 회귀 분석에 모두 활용가능하다고 생각한다.

상품으로서의 토지

  • 부동산 시장의 주요 상품인 토지는 자연적 특성으로 부동성, 부증성, 영속성, 개별성, 인접성을 지니고 있으며, 그 중 개별성으로 인해 단 하나의 토지도 동일한 상품이 존재하지 않다.
  • 또한 부동성, 부증성, 영속성의 이유로 특정 지역에 대한 토지 공급량은 증가할 수 없어 그 희소성 만큼이나 높은 가격(고가성)을 형성하고 있어, 각 토지에 대한 가치는 감정평가(鑑定評價)를 통해 산정할 수 있다.
  • 민간시장에서의 가격과 별개로 국가에서 공시하는 토지 가격을 공시지가라고 한다.

공시지가(公市地價)

  • 부동산 가격공시에 관한 법률에 따라 국토교통부 장관이 조사 평가하여 공시한 표준지의 단위면적당 가격이다(나무위키).
  • 주로 세금이나 부담금을 산정하기 위해 사용되어 민간소유의 토지에 대하여 국가가 감정원에 의뢰하여 감정평가사가 평가한다.
  • 매년 1월 기준으로 평가하여 공시되며, 그 해 5~6월 중으로 이의신청을 받아 7월에 수정된 토지에 대한 공시지가를 재공시한다.

공시지가 데이터 제공처

  • 국가공간정보포털(http://www.nsdi.go.kr/)의 오픈마켓(http://data.nsdi.go.kr/dataset)에서 ‘공시지가’를 검색하면 년도별 전국 공시지가 데이터를 다운받을 수 있다(로그인 필요).
  • 각 토지의 공시지가와 그 특성이 담긴 ‘공시지가_토지특성' 데이터 중 최신 자료인 2022년 데이터를 활용하여 분석을 진행하고자 한다.

소스 데이터 확인하기

테이블 정의서

  • 토지 ID인 PNU와 개별공시지가 PNILP, 그 외 토지특성들(JIMOK, PAREA, SPFC1, SPFC2, LAND_USE, GEO_HL, GEO_FORM, ROAD_SIDE)로 구성되어 있다.
  • 토지특성은 숫자 코드로 구성되어 있어 활용에 필요한 코드표를 국토교통부의 '2017년 개별공시지가조사 산정지침'을 참조하여 첨부(github)한다.
  • 기준 월 STDMT은 있지만, 기준 년도는 없다.

소스 파일

  • 총 17개의 파일로 나뉘어 있으며, 후첨 문자 '_2022_XX_01.zip'에서 XX는 시도(市道) 코드로서 서울(11), 부산(26), 인천(28), 경기(41) 등의 지역을 코드로 구분하고 있다.
  • 본 작업에서는 서울 데이터만 업로드하여 사용한다.

소스 데이터 업로드

  • 구체적인 업로드 작업은 다음 글(velog)에 기재
profile
가치를 만드는 데이터 분석가

0개의 댓글