RDD(Resilient Distributed Dataset)
회복 탄력성이 있는 분산 데이터셋
요즘은 잘 사용하지 않고 DataFrame을 사용하지만, 그 근간이 되는 low-level API이다.
주요 특징
RDD의 주요 동작 방식
map(), filter(), flatMap(), distinct()flatmap() : 입력 문자열을 단어로 나누는 함수collect(), count(), take(), saveAsTextFile(), first()collect() : 모든 요소를 배열로 반환take(N) : 앞의 N개 요소를 배열로 반환data = [1, 2, 3, 4, 5]
rdd = sc.parallelize(data) # list -> RDD
# Transformation
trasformed_rdd = rdd.filter(lambda x: x % 2 == 0).map(lambda x: x * 10)
# Action
result = transformed_rdd.collect()
SparkSession - DataFrame API 진입점