Apache Spark Streaming 개요

Yuni·2022년 9월 13일

DE 찍먹을 위한 Apache Spark 알아보기

목록 보기

6/6

Spark Streaming 이란?

데이터 스트림은 무한한 테이블이다.

SQL 엔진 위에서 만들어진 분산 스트림 처리 프로세싱
데이터 스트림을 처리할 때 사용함
시간대 별로 데이터를 합쳐(aggregate) 분석할 수 있음
Kafka, HDFS 등과 연결 가능
체크포인트를 만들어서 부분적인 결함이 발생해도 다시 돌아가 디버깅을 할 수 있음
내부적으로 RDD의 연속으로 구성되며 RDD의 속성을 이어받음

spark.readStream.format("kafka")
	 .option("kafka.bootstrap.servers", ...)
     .option("subscribe", "topic")
     .load()
     .selectExpr("cast(value as string) as json")  # transformation 가능
     .select(from_json("json", schema).as("data"))
     .writeStream.format("parquet")
     .trigger("1 minute")
     .option("checkpointLocation", "...")
     .start()

Yuni

1차전직 DA 2차전직 DE

이전 포스트

Apache Spark Streaming 개요

DE 찍먹을 위한 Apache Spark 알아보기

Spark Streaming 이란?

Apache Spark 머신러닝을 위한 MLlib 기본 구성

0개의 댓글