Apache Spark Streaming 개요

Yuni·2022년 9월 13일
1

Spark Streaming 이란?

데이터 스트림은 무한한 테이블이다.

  • SQL 엔진 위에서 만들어진 분산 스트림 처리 프로세싱
  • 데이터 스트림을 처리할 때 사용함
  • 시간대 별로 데이터를 합쳐(aggregate) 분석할 수 있음
  • Kafka, HDFS 등과 연결 가능
  • 체크포인트를 만들어서 부분적인 결함이 발생해도 다시 돌아가 디버깅을 할 수 있음
  • 내부적으로 RDD의 연속으로 구성되며 RDD의 속성을 이어받음

spark.readStream.format("kafka")
	 .option("kafka.bootstrap.servers", ...)
     .option("subscribe", "topic")
     .load()
     .selectExpr("cast(value as string) as json")  # transformation 가능
     .select(from_json("json", schema).as("data"))
     .writeStream.format("parquet")
     .trigger("1 minute")
     .option("checkpointLocation", "...")
     .start()
profile
1차전직 DA 2차전직 DE

0개의 댓글