
RDD는 Spark의 가장 기본적인 Interface이다. RDD의 핵심 특징은 다음과 같다.의존성: 각 RDD의 DAG Leaneage를 가지고 있어 의존성을 뛴다.파티션: 각 Executor들이 분산해 파티션별로 병렬 연산할 수 있다.연산함수: Partition -

API는 많은 양의 기본 셋업 코드가 필요하고, 장애 대응에 불안정관리하기 쉽지 않음맵리듀스 MR(태스크)필요로 하고 그 과정 로컬에 쌓아야함 ->(IO 증가)작업이 대규모에만 한정적임속도효과적인 멀티스레딩, 병렬처리 지원하는 유닉스 기반OS, 내부 구현 효율적DAG의