1. 데이터 분석가가 인사이트를 제공하는 과정
1) 데이터 수집
- 데이터 엔지니어의 영역
- 수집된 데이터를 분석가가 사용
2) 데이터 처리
- 데이터 추출, 필터링, 그룹화, 조인 등
- 이상치 제거, 분포 변환, 표준화, 카데고리화 등
3) 데이터 분석
- 지표 개발/산출
- EDA (탐색적 데이터 분석)
- 통계 분석
- 머신러닝 등
4) 리포팅
2. 대용량 데이터의 활용
데이터 처리의 필요성
- 데이터 분석가에게도 대용량의 데이터를 고속으로, 효율적으로 처리하는 방법이 필요하다.
- 목적에 맞는 데이터 테이블을 활용하여 인사이트를 제공하기 위해서 Raw 데이터를 다룰 수 있는 능력이 필요하다.
2.1 Apache Spark
Apache Spark
는 SQL, 스트리밍, 머신러닝 및 그래프 처리를 위한 기본 제공 모듈이 있는 대규모 데이터 처리용 통합 분석 엔진이다.