Data Engineering Tools
소스
수집 및 변환
저장
과거, 예측
출력
Batch & Stream Processing
Batch Processing
많은 양의 데이터를 정해진 시간에 한꺼번에 처리하는 것
전통적으로 쓰이는 데이터 처리 방법
Flow
Stream Processing
실시간으로 쏟아지는 데이터를 계속 처리하는 것
이벤트가 생길때마다, 데이터가 들어올 때마다 처리
실시간성 보장, 데이터가 여러 소스로부터 들어올 때, 데이터가 가끔 들어오거나 지속적으로 들어올 때, 가벼운 처리를 할 때 주로 사용
Flow
Micro Batch
Spark
메모리 연산 속도
Resilient Distributed Dataset(RDD)
탄력적 분산 데이터 셋
Spark의 핵심 데이터 모델로써 여러 분산 노드에 걸쳐서 저장되고 변경이 불가능
특징
데이터 추상화
Resilient & Immutable
Type-safe
UnStructured / Structured Data
Lazy