빅데이터 시대, 성과를 이끌어 내는 <데이터 문해력>
내집마련을 하기 위해 서울과 경기도 지역의 아파트를 찾아보았다. 처음에는 그냥 아는 동네 아파트 가격만 봤더니, 이 가격이 아파트 자체의 가치에 비해 비싼건지 싼건지 전혀 알 수 없었다. 부동산 강의를 들어보니, 강사가 부동산을 살 때는 '비교평가'를 통해 그 부동산의 가치를 비로소 평가할 수 있다고 했다. 그래서 나는 서울 강동구, 서울 송파구, 경기도 분당구의 아파트를 비교평가했다. 셋 다 비슷한 입지가치의 아파트였는데 어느 순간 서울 송파구의 아파트 가격이 급격하게 떨어졌다. 비슷한 입지가치의 부동산을 지역별로 비교평가하여 입지 대비 가격이 싼 아파트를 골라낼 수 있었다.
1단계 - 시각적으로 관련성을 확인한다
: '문제와 결과를 나타내는 지표'가 세로축, 가설로 수립한 '원인 후보 지표'를 가로축으로 하여 '산포도'를 작성합니다. 그러면, 세로축과 가로축의 관련성을 시각적으로 포착할 수 있습니다.
2단계 - 통계 지표를 확인한다 ~ 상관계수 ~
: 지표 데이터 조합이 많을 때는 일단 상관계수를 활용하여 분석을 수행하고 관련성이 있는 것처럼 보이는 조합을 먼저 들여다보는 것이 좋습니다. 다만, 데이터의 관련성을 모두 상관분석을 통해 파악 가능한 것은 아니므로 더 자세하게 관련성을 알아보고 싶을 때는 산포도를 통해 시각화하는 편이 무난합니다.
: 데이터 간 상관성을 분석하는 게 막연히 어렵게 느껴졌다. 책에서 분명하게 가이드라인을 제시해주어서, 데이터분석 프로젝트를 할 때, 이 가이드라인을 따라 하면 그리 어렵지 않겠다는 자신감이 들었다.