Apache Spark는 대용량 데이터 처리를 위한 클러스터 컴퓨팅 프레임워크이자 실행 엔진으로 MapReduce를 사용하지 않는다. 대신 클러스터를 기반으로 작업을 실행하는 자체 분산 런타임 엔진이 있다. (MapReduce와 비슷하긴하다)
스파크는 Job 사이의 대용량 작업 데이터를 메모리상에 유지할 수 있다.
매번 디스크에서 데이터를 읽는 MapReduce에 비해 훨씬 빠르다.