[혼공머신] 2-1. 데이터 선정하기

Bob Park·2022년 9월 14일

공시지가 머신러닝 혼자 공부하는 머신러닝+딥러닝

0

[머신러닝] 혼자 공부하는 머신러닝+딥러닝

목록 보기

2/5

01-3. 마켓과 머신러닝

“가장 간단한 머신러닝 알고리즘 중 하나인 K-최근접 이웃을 사용하여 2개의 종류를 분류하는 머신러닝 모델을 훈련합니다.” 박해선(2020)

공시지가 데이터 소개

데이터 선정 이유

1회독에 배운 내용을 새로운 데이터에 접목시켜보는 과정에서 더 깊은 이해가 되기도 하고 인지하지 못했던 내용도 발견할 수 있는 기회가 될 것이라 생각한다.
새로운 기술을 사용했던 데이터에 접목시켜보면 고려해야하는 기술적 이슈를 머신러닝으로 좁힐 수 있어 학습의 질을 높일 수 있다.
데이터의 개수가 충분하고(서울 기준 약 900,000 rows), 계량형 변수와 명목형 변수가 공존하여 분류와 회귀 분석에 모두 활용가능하다고 생각한다.

상품으로서의 토지

부동산 시장의 주요 상품인 토지는 자연적 특성으로 부동성, 부증성, 영속성, 개별성, 인접성을 지니고 있으며, 그 중 개별성으로 인해 단 하나의 토지도 동일한 상품이 존재하지 않다.
또한 부동성, 부증성, 영속성의 이유로 특정 지역에 대한 토지 공급량은 증가할 수 없어 그 희소성 만큼이나 높은 가격(고가성)을 형성하고 있어, 각 토지에 대한 가치는 감정평가(鑑定評價)를 통해 산정할 수 있다.
민간시장에서의 가격과 별개로 국가에서 공시하는 토지 가격을 공시지가라고 한다.

공시지가(公市地價)

부동산 가격공시에 관한 법률에 따라 국토교통부 장관이 조사 평가하여 공시한 표준지의 단위면적당 가격이다(나무위키).
주로 세금이나 부담금을 산정하기 위해 사용되어 민간소유의 토지에 대하여 국가가 감정원에 의뢰하여 감정평가사가 평가한다.
매년 1월 기준으로 평가하여 공시되며, 그 해 5~6월 중으로 이의신청을 받아 7월에 수정된 토지에 대한 공시지가를 재공시한다.

공시지가 데이터 제공처

국가공간정보포털(http://www.nsdi.go.kr/)의 오픈마켓(http://data.nsdi.go.kr/dataset)에서 ‘공시지가’를 검색하면 년도별 전국 공시지가 데이터를 다운받을 수 있다(로그인 필요).
각 토지의 공시지가와 그 특성이 담긴 ‘공시지가_토지특성' 데이터 중 최신 자료인 2022년 데이터를 활용하여 분석을 진행하고자 한다.

소스 데이터 확인하기

테이블 정의서

토지 ID인 PNU와 개별공시지가 PNILP, 그 외 토지특성들(JIMOK, PAREA, SPFC1, SPFC2, LAND_USE, GEO_HL, GEO_FORM, ROAD_SIDE)로 구성되어 있다.
토지특성은 숫자 코드로 구성되어 있어 활용에 필요한 코드표를 국토교통부의 '2017년 개별공시지가조사 산정지침'을 참조하여 첨부(github)한다.
기준 월 STDMT은 있지만, 기준 년도는 없다.

소스 파일

총 17개의 파일로 나뉘어 있으며, 후첨 문자 '_2022_XX_01.zip'에서 XX는 시도(市道) 코드로서 서울(11), 부산(26), 인천(28), 경기(41) 등의 지역을 코드로 구분하고 있다.
본 작업에서는 서울 데이터만 업로드하여 사용한다.

소스 데이터 업로드

구체적인 업로드 작업은 다음 글(velog)에 기재

가치를 만드는 데이터 분석가

이전 포스트

[혼공머신] 1. 머신러닝과 딥러닝

다음 포스트

[혼공머신] 2-2. RDB에 데이터 업로드하기

0개의 댓글