데이터 처리 3요소
ETL : Extract(추출), Transform(변환), Load(적재)의 앞글자를 딴 용어
빅데이터 처리 방식
- Real-Time Processing (실시간 처리)
Streaming Data
- Distributed Processing (분산 처리)
여러 컴퓨터를 사용
*마스터 컴퓨터가 죽으면 전체가 죽음
컴퓨팅 파워를 늘리는 방법
scale-out : 접속한 서버의 수를 늘리는 것(병렬적)
scale-up : 서버의 수를 늘리는 것이 아니라 단일 시스템 내부에서 CPU, 메모리, 디스크 등을 추가하는 것(수직적)
=>scale-out이 더 적은 비용 발생!
데이터 처리 과정
데이터 파이프라인 : 데이터 처리 컴포넌트들이 연속되어 있는 것
- 컴포넌트들은 비동기적으로 동작한다.
- 각 컴포넌트는 완전히 독립적이다.
- 각 컴포넌트는 데이터를 처리한 결과를 다음 컴포넌트로 보낸다.
데이터 사이언스
- Data Engineering
->Data Pipeline + Data Service
- Data Analysis
->Statistical Analysis + ML/DL
- Data Visualization
->Business Intelligence
데이터 엔지니어
출처 :https://www.oreilly.com/radar/data-engineers-vs-data-scientists/