구조화된 데이터 처리를 위한 Spark 모듈이다.
데이터 프레임을 SQL로 처리 가능하게 해준다.
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.jar", << JDBC jar 지정
.getOrCreate()
...
read
함수를 호출한다. ==> spark.read
데이터프레임을 기반으로 테이블 뷰 생성
createOrReplaceTempView
: sparkSession이 살아있는 동안 존재createGlobalTempView
: spark 드라이버가 살아있는 동안 존재sql함수로 SQL 결과를 데이터 프레임 형태로 받을수있다!
df.createOrReplaceTempView("name")
df = spark.sql("
SELECT gender, count(1) FROM name GROUP BY 1
")
print(df.collect())
collect: spark df를 가지고 작업을 하다가 이걸 받아서 로컬에서 print 하고 싶을 경우에는
collect()로 불러줘야 한다.