SparkConf/SparkContext/SparkSession 간단 정리

codeblue·2025년 1월 14일

Spark

목록 보기

2/2

SparkConf : 클러스터와 애플리케이션의 설정을 관리하는 데 사용

from pyspark import SparkConf, SparkContext

conf = SparkConf().setAppName("MyApp").setMaster("local")
sc = SparkContext(conf=conf)

SparkContext : 스파크 애플리케이션에 대한 연결을 표현, 스파크 프로그램에서 RDD를 사용하기 위한 주요 엔트리 포인트

# 외부 데이터 로드: 파일 시스템, 데이터베이스 등에서 데이터를 로드
rdd = sc.textFile("data.txt")

💡엔트리 포인트 : 스파크와 같은 프레임워크에서는 해당 라이브러리나 프레임워크의 기능을 초기화 하고 접근하기 위한 API나 함수
참고한 사이트

👉 SparkContext, SparkSession은 애플리케이션이 스파크 기능을 사용하기 위해 초기에 접근해야 하는 엔트리 포인트

SparkSession : Spark 2.X 이후부터 SparkSession은 모든 Spark 기능의 엔트리 포인트

# create a sparksession example 
spark = SparkSession.builder.appName("SparkSQL").getOrCreate()

🚩 Spark RDD 연산 참고하기 🚩

Spark 공식 문서
Spark RDD 연산 예제 모음