스파크(Spark)란?

스파크 구성 요소
SPARK CORE를 중점/기반으로 Spark Streaming, Spark SQL, MLLib, GraphX가 있다.
- Spark Streaming: 실시간 인풋 데이터 분석
- Spark SQL: SQL 쿼리 생성, Spark의 데이터셋에 집중
- MLLib: 머신러닝, 데이터 마이닝 도구의 사용 가능케함
- GraphX: 그래프 -> 데이터 추출

RDD
Spark에서 발생하는 모든 것의 추상화
- 클러스터 전체에 걸쳐 작업이 고르게 분산되고 오류에 탄력적으로 대처할 수 있도록 함
- 클러스터에서 자동으로 올바른 작업을 수행할 수 있는 객체의 키와 값 정보 또는 일반적인 정보를 저장하는 일종의 방법
- 프로그래밍 관점에서 RDD는 단순 데이터셋임
Spark Context
드라이버 프로그램에서 만들어지는 것으로, spark shell이 있으며 SC라는 객체를 만들 수 있음
- 드라이버 프로그램이 Spark 내에서 실행되는 일종의 환경
- 이것이 RDD를 만듦
Reference
스파크의 등장 배경

스파크의 역사


스파크 실행하기