데이터분석을 시작하기 위해서는 "OO을 설명한다" 혹은 "OO을 예측한다"와 같이 구체적인 데이터분석의 목적을 세워야 한다. 분석 목적에 따라 데이터 수집과 분석 방법 등 전반적인 방향성이 결정되기 때문이다. 데이터분석의 목적의 사례는 아래와 같다.
- 신약의 효과 유무와 효과의 크기를 확인한다.
- 소득과 행복도 사이의 관계를 설명한다.
데이터분석의 목적을 세웠다면 알고자 하는 대상을 명확히 해야한다. '혈압을 내리는 신약'을 예로 들어보자. 이 분석의 목적은 '신약의 효과 유무와 효과의 크기'이며, 이를 확인할 수 있는 대상은 '고혈압이 있는 모든 사람의 혈압'이 된다.
이 때 모든 사람들의 혈압이라고 한다면, 미래에 있을 고혈압 환자들의 혈압까지도 포함되어야 하므로 이는 무한하다.
이 개념은 다음 절에서 조금 더 자세히 보도록 하자