Spark 강의 정리 #1

HGW XX/7·2023년 3월 5일

목록 보기

1/1

csv read 할 때는 spark.read.csv

titanic_sdf = spark.read.csv('/FileStore/tables/train.csv', header=True, inferSchema=True)
display(titanic_sdf)

spark DataFrame을 메모리에 cache
titianic_sdf = titanic_sdf.cache()

#spark DataFrame의 head(N)는 DataFrame의 선두 N개 Row Object를 list로 반환.

print(type(titanic_sdf.head(10)))
print(titanic_sdf.head(10))

spark DataFrame의 limit(N)은 DataFrame의 선두 N개 Record를 가지는 DataFrame을 반환.

print(type(titanic_sdf.limit(10)))

spark DataFrame의 schema만 출력.

print(titanic_sdf.limit(10))

spark DataFrame의 내용을 출력 - show()

print(titanic_sdf.limit(10).show())
titanic_sdf.limit(10).show()

spark