Spark 는 in memory data 처리 HADOOP은 disk 기반의 데이터 처리
RDD ( Resilient Distributed Dataset)
RDD 의 다른 말 Immutable, Partitioned Collections of Record
RDD를 처음 만 들 때 DISK에서 데이터를 가져옴. 모든 데이터는 DISK 에 들어 가 있음 ( HDFS ) 거기서 메모리로 가져옴 그때 RDD 가 생성 , 외부(DISK)로부터 데이터를 로딩할 때
코드에서 데이터를 저장할 때 RDD를 생성할 수 있음
RDD를 제어하는 2개의 연산 타입
Transformation ( 변환 ) : RDD에서 새로운 RDD를 생성하는 함수
Action ( 액션 ) : RDD에서 RDD가 아닌 다른 타입의 데이터로 변한하는 함수들
Immutable : 만들어진 뒤에는 변하지 않음
Partitioned : 데이터 셋을 잘게 잘라서 분산
partition
Dependency 타입
Narrow Dependency
Wide dependency
RDD 연산의 순서를 기록 DAG로 표현
1. Fault-tolerant 확보
2. Lazy Execution 가능
3. 작업 스케줄링에 활용