우리는 어떤 현상이나 대상을 관측하여 데이터를 얻을 수 있다. 그런데 데이터는 단순히 수치의 집합이기 때문에 단순히 바라보기만 한다고 해서 새로운 의미를 발견하기는 어렵다. 또한 데이터를 해석하는 분석가의 주관이 들어가 데이터가 왜곡될 수 있다. 따라서 데이터를 객관적으로 분석하기 위해서 우리는 통계를 사용해야 한다.
위 내용을 요약하면 아래와 같다.
[ 데이터 분석에서 통계를 사용하는 이유 ]
모든 데이터는 어떤 관측으로 얻어지는데, 어떤 처리를 통해 새롭고 이득이 되는 정보로 바뀔 수 있다. '어떤 처리'의 한 방법이 통계이고 수치만을 다루기 때문에 객관적이고 정확한 분석을 할 수 있다.
데이터를 분석하는 목적은 3가지가 있으며 이는 아래와 같다.
아무런 처리를 하지 않은 데이터는 단순히 수치의 집합이기 때문에 별다른 의미를 갖지 않는다. 따라서 데이터를 요약하는 방법이 필요하다. 데이터를 요약하는 방법은 평균, 분산, 중위값 등이 있다. 데이터를 요약하는 통계 기법을 기술 통계라고 한다.
대상을 설명한다는 것은 '대상이 가진 성질과 관계성을 밝힌다'는 의미를 갖는다. 예를 들어 '운동을 매일 2시간 하는 사람은 근육량이 많고, 운동을 매일 1시간 사람은 근육량이 적다'라는 관측에서는 운동 시간과 근육량 사이의 관계성을 추론할 수 있다.
그런데 관계성을 추론할 때 중요한 점이 모든 가능성을 배제하고 객관성을 보장해야한다는 것이다. 위 예에서 만약, 2시간 운동하는 사람이 운동을 설렁설렁하는 사람이고, 1시간 운동하는 사람은 운동시간을 꽉 채워서 운동하는 사람이라면 결과는 어떻게 될까? 이처럼 결과에 영향을 미칠 수 있는 모든 가능성을 배제하여 객관성을 얻어야 한다.
대상의 관계는 인과관계와 상관관계가 있다. 인과관계는 'A를 변경하면 B는 어떻게 변한다'와 같이 한 변수를 바꾸면 다른 변수도 바뀌는 경우이다. 상관관계는 'A가 크면 B도 큰(혹은 작은) 경향이 있다'와 같이 한 변수를 변경한다고 했을 때 다른 변수도 반드시 변한다고 단정할 수 없는 경우이다. "인과관계 상관관계"임을 항상 기억하자!
우리가 관측한 데이터를 기반으로 데이터의 특성을 파악하여 미지의 데이터를 예측하는 것도 데이터분석의 주요 분야이다. 예를 들어 지난 5년 간의 매출 추이를 기반으로 올 해 매출을 예측하는 것이 있다.