📒 Spark(4)

Kimdongki·2024년 6월 18일

Spark

목록 보기

4/22

RDD, DataFrame, Dataset (ummutable Distributed Data)
-> 2016년에 DataFrame과 Dataset은 하나의 API로 통합디었다.
-> 모두 파티션으로 나누어서 Spark에서 처리된다.

	RDD	DataFrame	Dataset
What?	Distributed collection of records (structured & unstructured)	RDD organized into named column	Extension of data frame
When	1.0	1.3	1.6
Compile type Check	No	No	Yes
API	No	Yes	Yes
Base Spark SQL	No	Yes	Yes
Catalyst Optimizer	No	Yes	Yes

1. Code Analysis : 코드 분석 -> 에러 분출

변경이 불가능한 분산 저장된 데이터
- RDD는 다수의 파티션으로 구성되어있다.
- 로우레벨의 함수형 변환을 지원한다. (Map, Filter, FlatMap 등등)
일반 Python Data는 Parallelize 함수를 사용하여 RDD로 변환한다.
- 반대로 collect를 사용하여 Python Data로 변환 가능하다.

py_list = [
	(1, 2, 3, 'a b c'),
    (4, 5, 6, 'd e f'),
    (7, 8, 9, 'g h i')
]
rdd = sc.parallelize(py_list)
print(rdd.collect())

변경이 불가능한 분산 저장된 데이터
RDD와는 다르게 관계형 DB Table처럼 Column으로 나누어서 저장한다.
- Padas의 DataFrame 혹은 관계형 DB의 Table과 거의 흡사하다.
- 다양한 데이터소스를 지원한다. : HDFS, Hive, 외부 DB, RDD 등등
Scala, Java, Python과 같은 언어에서 지원한다.