빅데이터 시대, 성과를 이끌어 내는 <데이터 문해력>
처음으로 데이터분석 팀 프로젝트에 참여하게 되었다. 일단, 팀원들은 EDA를 통해 데이터셋을 파악하고, 프로젝트에서 어떤 문제를 해결할지 프로젝트의 목표를 각자 수립해오기로 했다. 책을 읽기 전이라면, 나는 일단 데이터셋을 가지고 그래프를 몇개 그려보고, 그 중 유의미해보이는 것을 우연히 발견하면 그것으로 프로젝트 문제를 정의하고 목표를 설정했을 것이다. 그러나 이 책에서는 그 방법은 버리라고 했다. 저자는 '디자인'부터 먼저 하라고 한다.
디자인이란 '목적과 문제를 정의하는 것', '이를 위해 필요한 데이터와 지표를 설정하는 것', 그리고 '그 데이터를 어떻게 분석해야 문제의 정보를 효과적으로 얻을 수 있는지 분석하는 것'에 대해 고려한 다음 데이터를 활용해 수행할 작업의 설계도를 그리는 것이라고 말한다. 일단, 나는 데이터셋이 나온 기업의 비즈니스 모델부터 확인하려고 한다. 비즈니스 모델을 파악해서 이 회사에서 중요한 비즈니스 목표가 무엇일지 먼저 고려해보려고 한다. 그 다음, 목적과 문제를 정의하고, 필요한 데이터와 지표를 설정할 것이다.
눈앞에 있는 데이터에 매몰되지 않는 적절한 프로세스를 이 책에서 정의했는데, 그 프로세스를 프로젝트를 진행할 때 적용해보려고 한다. 프로젝트를 진행하는 전과정에서 '어떤 범위, 어느 시점의 정보(데이터)가 필요한가?' 그리고 '어떻게 처리, 가공해야 할 것인가'를 계속 생각해야 한다. 먼저 가설을 수립하고, 가설을 객관적, 논리적으로 검증하기 위해 필요한 데이터를 찾아내는 이 순서를 기억할 것이다.