Hadoop Ecosystem
) 이 시장을 지배MapReduce
는 Disk 기반으로 동작하기 때문에 속도가 느리다는 단점이 존재In Memory
의 연산을 통해 처리성능을 향상시키고자 등장하게 됨Spark는 아파치 재단의 오픈소스로 관리되고 있는 인메모리 기반의 대용량 데이터 고속 처리 엔진으로서 범용 분산 클러스터 컴퓨팅 프레임워크
Lazy Evaluation
) 방식을 사용하여 최적의 실행계획을 제공함으로써 하둡의 MapReduce 기반 작업처리보다 100배 가량 빠른 속도를 제공scala
로 작성된 프레임워크지만 scala
이외에 java
, python
, R
등 다양한 언어를 지원 (단, 언어마다 처리속도가 다름)YARN
, Mesos
, Kubernetes
, standalone
를 지원TXT
, JSON
, ORC
, Parquet
등 다양한 파일 포맷을 지원S3
, HDFS
, HBase
, Hive
, Kafka
등 다양한 source 저장소와의 연동 지원RDD
, DataFrame
, DataSet
작업을 생성하고 처리Hive
의 metastore
와 연동하여 하둡의 데이터를 SQL로 호출 가능Classification
, Regression
, Clustering
등 다양한 머신러닝 라이브러리를 지원참고자료