동일한 데이터를 단순하게 전처리 한 후 구축하여 목록화한 "분석용 데이터 구축"과는 달리 본 프로젝트에서는 탐색적으로 데이터를 분석하여 인사이트를 도출 했다.
데이터에 대한 이해도 없이 분석을 진행할 경우, 본론에서 살펴 봤던 것 처럼 값을 잘못 판단해 옳지 않은 해석을 하게 될 수 있다. 따라서 사용하고자 하는 데이터의 배경 및 흐름 등을 파악한 후 구축 및 분석을 진행해야 한다.
~~ TMI !!! ~~
와.. 사실 과제가 주어졌을 때 왜 '분석용 데이터 구축' 이지? 뭐가 '탐색적 데이터 분석' 이지? 라고 생각 했었는데, 이번에 복기하면서 뭔지 알게 됐다.
분석용 데이터 구축 시리즈에서 말했듯이 python으로 동일한 프로젝트를 진행했었다. 그 때 이상치로 보이는 값의 원인을 알게 되었는데, 사실 기술 통계량 해석하는 건 여전히 어려웠다. 그렇지만 지금은 괜찮아졌다. 역시 복습은 중요하다. 하지만 오히려 나는 자주하면 오히려 더 머리 속이 복잡해지는 타입인지라 일단 부딪혀서 결과를 만든 후 어느 정도 시간이 지나서 맑은 정신으로 복기하는 것이 도움이 된다.
어찌 되었던 데이터를 살펴보고 분석하는 거 여전히 골머리 앓지만 재미있다. 사실 데이터 구축하고 모델링 하는게 제일 재밌고 좋음 ^0^
다음 시리즈로는 '통계기반 데이터 분석'을 들고 오겠다!