csv read 할 때는 spark.read.csv
titanic_sdf = spark.read.csv('/FileStore/tables/train.csv', header=True, inferSchema=True)
display(titanic_sdf)
spark DataFrame을 메모리에 cache
titianic_sdf = titanic_sdf.cache()
#spark DataFrame의 head(N)는 DataFrame의 선두 N개 Row Object를 list로 반환.
print(type(titanic_sdf.head(10)))
print(titanic_sdf.head(10))
spark DataFrame의 limit(N)은 DataFrame의 선두 N개 Record를 가지는 DataFrame을 반환.
print(type(titanic_sdf.limit(10)))
spark DataFrame의 schema만 출력.
print(titanic_sdf.limit(10))
spark DataFrame의 내용을 출력 - show()
print(titanic_sdf.limit(10).show())
titanic_sdf.limit(10).show()