Hadoop Ecosystem) 이 시장을 지배MapReduce는 Disk 기반으로 동작하기 때문에 속도가 느리다는 단점이 존재In Memory의 연산을 통해 처리성능을 향상시키고자 등장하게 됨Spark는 아파치 재단의 오픈소스로 관리되고 있는 인메모리 기반의 대용량 데이터 고속 처리 엔진으로서 범용 분산 클러스터 컴퓨팅 프레임워크
Lazy Evaluation) 방식을 사용하여 최적의 실행계획을 제공함으로써 하둡의 MapReduce 기반 작업처리보다 100배 가량 빠른 속도를 제공scala로 작성된 프레임워크지만 scala 이외에 java, python, R 등 다양한 언어를 지원 (단, 언어마다 처리속도가 다름)YARN, Mesos, Kubernetes, standalone를 지원TXT, JSON, ORC, Parquet 등 다양한 파일 포맷을 지원S3, HDFS, HBase, Hive, Kafka 등 다양한 source 저장소와의 연동 지원RDD, DataFrame, DataSet 작업을 생성하고 처리Hive의 metastore와 연동하여 하둡의 데이터를 SQL로 호출 가능Classification, Regression, Clustering 등 다양한 머신러닝 라이브러리를 지원참고자료