아파치 스파크의 주요 특징과 컴포넌트들에 대해 알아보자
Spark의 백엔드 엔진 구동에 대해 알아본다. Catalyst와 Tungsten
RDD
Spark에서는 Dataframe 사용이 권장되며, Spark RDD에 스키마를 입힌 것이 Dataframe이라고 알면 된다. 즉 Spark 기본인 RDD에서 출발하여 더 발전된 형태로 활용할 수 있는 것이 Spark Dataframe이다.Spark Core -> RD
머신러닝 파이프라인 개발을 쉽고 확장성 있게 적용하기 위해 만들어진 Spark 컴포넌트.
데이터 스트림은 무한한 테이블이다.SQL 엔진 위에서 만들어진 분산 스트림 처리 프로세싱데이터 스트림을 처리할 때 사용함시간대 별로 데이터를 합쳐(aggregate) 분석할 수 있음Kafka, HDFS 등과 연결 가능체크포인트를 만들어서 부분적인 결함이 발생해도 다시