spark 프로그램의 시작은 spark 세션을 만드는 것
CPU수로 파티션 수가 정해짐
spark = SparkSession.builder\
.master("local[*]")\
.appName('PySpark_Tutorial')\
.getOrCreate()
"local[*]" -> 로컬에 있는 모든 CPU 사용하겠다.
Lazy Execution -> RDD를 가지고 뭔가 의미있느 것을 할때 실행됨.
파이썬 제너레이터
yield문
https://nodoudt.tistory.com/31