documentation - https://spark.apache.org/docs/latest/api/python/reference/pyspark.sql.html#spark-session-apis
sql.SparkSession
- Dataset과 DataFrame API를 사용하여 Spark programming을 시작하는 포인트.
- Spark session을 create하기 위해서는 SparkSession.builder attribute를 사용해야 한다.
sql.SparkSession.builder
- appName - application의 이름 설정, Spark web UI에서 보여짐
- config - Sets a config option
- master - 연결할 Spark master URL을 설정한다. ex) 로컬에서 실행될때 "local", 4개의 core로 로컬에서 실행될때 "local[4]"
- getOrCreate - 존재하는 SparkSession을 불러오거나 존재하지 않는다면 builder에 존재하는 옵션을 바탕으로 하나 생성한다.
from pyspark import sql
spark = sql.SparkSession.builder.appName("apis").master("local").getOrCreate()