[Spark] Spark Streaming 소개와 Kafka 연동

MINJI·2025년 3월 20일

📈 빅데이터

목록 보기

9/9

실시간 데이터 스트림 처리를 위한 Spark API

Spark Streaming은 실시간 입력 데이터 스트림을 배치로 나눈 다음
Spark Engine에서 처리하여 최종 결과 스트림을 일괄적으로 생성
- Dstream과 Structured Streaming 두 종류가 존재

소스와 싱크는 외부 시스템(소스)에서 스트리밍 데이터를 수집하고 처리된 데이터를 외부 시스템(싱크)으로 출력하는 것을 용이하게 하는 구성 요소

Kafka, Amazon Kinesis, Apache Flume, TCP/IP 소켓, HDFS, File 등을 Spark Structured Streaming에서 처리할 수 있도록 해줌
Spark DataFrame과 비교하면 readStream을 사용하는 점이 다름

Spark Cluster Manager로 local[n] 지정
- master를 local[n]으로 지정
- master는 클러스터 매니저를 지정하는데 사용
주로 개발이나 간단한 테스트 용도
하나의 JVM에서 모든 프로세스를 실행
- 하나의 Driver와 하나의 Executor가 실행됨
Executor 안에 생성되는 쓰레드 수
- local : 하나의 쓰레드만 생성
- local[*] : 컴퓨터 CPU 수만큼 쓰레드 생성

Spark 다운로드
https://spark.apache.org/downloads.html

세부 설치 방법 : Github 문서 참고 (윈도우)
https://github.com/keeyong/beginner-spark-programming-with-pyspark/blob/main/spark/local_installation_windows.md

Spark 에서 제공해주는 예제 프로그램
https://spark.apache.org/docs/latest/streaming-programming-guide.html#a-quick-example