
데이터 분석은 일반적으로 다음과 같은 단계를 거쳐서 진행된다.
1단계: 문제 정의 및 계획
▪ 문제가 명확해야 그 문제를 해결하기 위한 데이터가 어떤 것인지를 추정할 수 있고, 어떤 분석기법을 적용해야 할지도 계획할 수 있음
2단계: 데이터 수집
▪ 기존 시스템의 데이터베이스, 엑셀파일, 종이 문서, 장비내의 파일, 인터넷 등에서 필요한 자료를 수집
3단계: 데이터 정제 및 전처리
▪ 수집된 데이터는 바로 분석에 사용할 수 없는 경우가 대부분
▪ 단위의 차이, 결측값, 오류 데이터 등의 보정 필요
▪ 수집된 데이터를 분석이 가능한 형태로 정돈하는 과정을 데이터 정제 혹은 전처리 과정
4단계: 데이터 탐색
▪ 가벼운 데이터 분석
▪ 전반적인 데이터의 내용을 파악하는 단계
5단계: 데이터 분석
▪ 데이터 탐색 단계에서 파악한 정보를 바탕으로 보다 심화된 분석을 수행하는 단계
▪ 전통적인 통계분석을 포함하여 고급 분석 기법들이 사용됨
▪ 머신러닝 기술도 적용됨
6단계: 결과 보고
▪ 데이터의 분석과 해석이 마무리 되면 그 내용이 정리되고, 보고 되어야 함
▪ 결과보고 작성단계에서 중요한 기술이 바로 데이터 시각화(visualization)
▪ 데이터 시각화란 분석된 결과를 단순 숫자의 나열이 아니라 다양한 그래프나 그림을 통해서 결과를 쉽게 이해할 수 있도록 표현하는 것
일반적으로 데이터 분석은

-
데이터를 수집하는 일에 19%, 데이터를 정제하고 전처리하는 데 60%의 시간을 사용
→ 즉, 전체 분석 과정에서 약 80%의 시간이 분석을 위한 데이터 준비에 사용
-
이러한 시간을 얼마나 줄이느냐가 전체 분석 시간을 줄이는 관건