데이터 스트림은 무한한 테이블이다.
aggregate
) 분석할 수 있음spark.readStream.format("kafka")
.option("kafka.bootstrap.servers", ...)
.option("subscribe", "topic")
.load()
.selectExpr("cast(value as string) as json") # transformation 가능
.select(from_json("json", schema).as("data"))
.writeStream.format("parquet")
.trigger("1 minute")
.option("checkpointLocation", "...")
.start()