주택 거래량과 부동산 커뮤니티 조회수의 상관관계 분석

김재현·2022년 10월 18일
0

project

목록 보기
9/12
post-custom-banner

'주택 거래량'과 '부동산 커뮤니티 조회수'의 상관관계를 분석하는 프로젝트입니다.

1. 프로젝트 목적

2019년부터 주택매매가격이 폭등했습니다. 가격이 오르고 있지만 오히려 지금 집을 사지 않으면 평생 집을 살 수 없다는 생각을 가진 사람들도 등장을 했습니다. 이래저래 부동산에 관심이 많아진 지금 다음의 내용이 궁금했습니다.

"부동산 커뮤니티에서 언급이 많이 되는 지역이라면 주택매매도 활발히 이루어지지 않을까?"

그래서 본 프로젝트에서는 위와 같은 가설이 맞는지 검증하기 위해, 주택 거래량과 부동산 커뮤니티 조회수의 상관관계를 분석해보았습니다.


2. 프로젝트 내용

2.1 주택유형별 주택거래현황

우선, KOSIS 국가통계포털에서 '주택유형별 주택거래현황' 데이터를 다운받아 데이터 분석을 진행했습니다.

해당 파일을 원하는 형태로 전처리하기 위해 행·열을 삭제하고 필터링을 한 후 직관적으로 이해하기 쉽게 컬럼명을 변경하였습니다.

그리고 구별 데이터로 기준열을 설정한 다음 데이터프레임을 정렬했습니다. 데이터 타입은 실수형으로 바꾸었고, 보기 편하도록 행열은 전치하였습니다.

이어서 피벗테이블을 활용하여 년도별 데이터를 생성한 후, 증감률을 계산하여 컬럼을 추가하였습니다. 이제 데이터 전처리 작업이 모두 끝났습니다.

이제 이 데이터를 활용해 choropleth로 지도 시각화를 해보도록 하겠습니다. 구글 맵스 라이브러리를 활용해 마커까지 생성해보았습니다.

2020년 기준, 은평구의 주택거래량은 20,065건으로 가장 거래량이 많습니다. 이에 반해, 종로구와 중구는 각 3,284건과 3,399건으로 거래량이 상대적으로 저조합니다.

2021년 기준, 은평구의 주택거래량은 14,771건으로 작년에 이어 가장 거래량이 많습니다. 중구와 종로구도 작년에 이어 저조한 기록을 보였는데요. 각 2,626건과 2,770건의 거래가 있었습니다.

이제 주택거래현황 증감률을 확인해보도록 하겠습니다. 대체적으로 보더라도 주택매매량이 매우 저조했다는 것을 알 수 있습니다. 오직 서초구만이 작년보다 많은 거래량을 기록했습니다.

가장 감소를 많이 했던 지역은 서대문구와 노원구였습니다. 주택매매량이 각 -54%, -51% 가량 하락했습니다. 이 결과가 과연 부동산 커뮤니티 조회수와 연관이 있을까요?


2.2 부동산 커뮤니티 조회수

이제 부동산 커뮤니티의 조회수를 확인해보도록 하겠습니다. 카페회원수가 많은 네이버 부동산 카페에 데이터를 활용하여 분석을 진행해보겠습니다.

웹 스크래핑을 위해 Selenium을 활용했습니다. Selenium으로 각 부동산 커뮤니티의 조회수를 가져와 저장해보도록 하겠습니다.

웹 스크래핑 결과는 다음과 같습니다. 이제 이 데이터를 가지고 지도 시각화를 하여 주택 매매량 데이터와 비교해보도록 하겠습니다.


3.3 데이터 시각화 및 비교 분석

2020년 주택거래량과 조회수의 시각화 자료입니다. 2020년 기준, 거래량이 높았던 강남 3구 및 강서 지역의 조회수가 대체적으로 높았습니다. 하지만 실 거래량이 많던 강북지역은 상대적으로 조회수가 낮은 편에 속했습니다.

2021년에는 강남 3구와 강서, 그리고 강북 지역에서의 거래량이 많았습니다. 그런데 조회수를 확인해보면 특정 세개의 구를 제외하고 평이한 수치를 기록했습니다.

마지막으로 거래량과 조회수의 증감율로 분석을 해보도록 하겠습니다. 조회수는 거래량과 마찬가지로 전반적으로 많이 하락하는 모습을 보였습니다.


3. 결론

"부동산 커뮤니티에서 언급이 많이 되는 지역이라면 주택매매도 활발히 이루어지지 않을까?"

위와 같은 가설을 가지고 데이터를 수집해 분석을 해보았습니다. 맵 시각화를 한 결과만 보면, 가설이 사실과 다른 것을 확인해볼 수 있습니다. 거래량이 많으나 조회수가 적은 지역도 있고, 거꾸로 거래량이 적으나 조회수가 많은 지역도 있었습니다.

하지만, 단지 육안으로 보는 것만으로 데이터 분석을 하는데는 한계가 있다는 것을 깨달았습니다. 통계분석적인 지식이 더 있었다면, 상관계수를 분석해본다거나 P-Value를 계산해볼 수 있지 않을까 하는 아쉬움이 있었습니다. 추후에 이 부분에 대한 보완을 해야겠습니다.

post-custom-banner

0개의 댓글