과학적, 논리적 사고를 바탕으로 기술력과 융합하여 다양한 형태의 데이터(ex. 이미지, 텍스트, 수치 등)로 부터 새로운 지식이나, 인사이트를 도출하는 과정
데이터는 위처럼 수치, 이미지 등으로 분류할 수도 있지만, 정형, 비정형, 반정형으로 구분할 수도 있다.
데이터 사이언스는 빅데이터가 발전함에 따라 발전하였기에, 데이터 사이언스를 살핌에 앞서, 그 배경이 되는 빅데이터의 정의를 우선 살펴본다.
➡️ 현재 빅데이터 정의는 더욱 확장되어 7V 등의 개념도 등장했다.
과거(전통적 환경, 빅데이터 환경 구분)와 달라진 현재의 데이터 분석 환경을 비교를 통해 알아본다.
| 전통적인 환경 | 빅데이터 환경 | 현재 (AI 환경) |
|---|---|---|
| 데이터량이 많아지면, 기존의 DB를 교체 | 빅데이터 환경에서는 서버를 병렬 처리로 add-on | 서버를 병렬 처리로 add-on |
| 상용 소프트웨어를 기반으로 일부 정형 데이터 샘플링, 작은 데이터 분석 | 다양한 형태의 All data를 오픈소스 기반(ex. python, R)이용하여 분석 | 다양한 형태의 All data를 AI를 통해 기존보다 복잡한 연산 기반 알고리즘 및 더 많은 양의 데이터를 활용할 수 있는 환경이 제공됨. |
| 내부/정적 데이터 활용 | 내부/반정형/동적 데이터 활용 | 내,외부/비정형(이미지 등) 데이터 활용 |
➡️ 즉, 기존에 비해 더 많은 양을 데이터를 더 복잡하고, 효율성있게 다룰 수 있는 AI 환경이 등장하면서,
데이터 사이언티스트
: 다양한 산업 내 다양한 형태의 빅데이터를 가공, 분석하여 새로운 가치를 창출하는 자.
시티즌 데이터 사이언티스트
: 특정 도메인 내의 데이터 사이언티스트 (자신의 전문 분야에서의 데이터 분석을 통해 가치 창출자.) => 전문적인 고급 데이터 분석가는 아니지만, 데이터 분석 기술을 일부 활용하여 자신의 영역의 비즈니스 영역 결과를 개선하는 자.
| 과제 수행 준비 (project Initiation) | 데이터 준비 (Data Preparation) | 데이터 분석 (Data Analytics) | 분석 결과 암호화 (Output) | 자산화 (Knowledge) |
|---|---|---|---|---|
| 방향성 제시, 커뮤니케이션/협의 | 활용 데이터 검토, 데이터 전처리 | 탐색적 데이터 분석, 분석 모델링 | 인사이트 도출, 결과의 통역/전개 | 응용/설계/운영화 |
| 주제 성립, 업무 Scope 정의 등 | 데이터 정의, 데이터 정제/변형 등 | 탐색적 데이터 분석, 통계/ML/DL 분석 등 | 분석 결과 해석, 활용 방안 제시 | 자동화 설계, 운영 방안 도출 |
| Analytic Knowledge, Leadership | Computer Science, Data Manipulation | Mathematics, Statistics, Data Mining | Visualization, Presentation, Application | Domain Knowledge, Marketing Knowledge |
프로젝트 수행 준비 (Pre-initiation)
요구사항 수집 (Access Situation)
AS-IS 분석
TO-BE 도출
분석 대상 데이터 수집/처리
탐색적 데이터 분석
고급 데이터 분석
결과 기반 활용 방안 제안