PySpark는 Python에서 대규모 데이터 처리를 가능하게 해주는 강력한 도구입니다. 아래는 PySpark 환경을 설정하는 데 필요한 단계를 정리한 내용입니다.
PySpark를 사용하기 위해서는 JDK와 Spark 설치가 필요합니다. 또한, Python 환경에서 Spark를 찾기 위한 findspark 패키지와 Kaggle 데이터를 다운로드하기 위한 kaggle 라이브러리도 설치해야 합니다. 아래는 필수 패키지를 설치하는 명령어입니다.
# JDK 설치
apt-get install openjdk-8-jdk-headless
# Spark 파일 다운로드 및 압축 해제
wget -q https://archive.apache.org/dist/spark/spark-3.0.0/spark-3.0.0-bin-hadoop3.2.tgz
tar -xf spark-3.0.0-bin-hadoop3.2.tgz
# Spark를 찾기 위한 findspark 및 Kaggle 데이터 다운로드용 라이브러리 설치
pip install findspark
pip install kaggle --upgrade
PySpark를 사용하려면 Java와 Spark의 경로를 환경 변수로 설정해야 합니다. 이를 통해 Spark가 제대로 동작할 수 있습니다. Python 스크립트를 활용하여 환경 변수를 설정하는 방법은 아래와 같습니다.
import os
import findspark
# 환경변수에 Java 및 Spark 경로 설정
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.0.0-bin-hadoop3.2"
# Spark 초기화
findspark.init()
os.environ:JAVA_HOME: Java 설치 경로 지정.SPARK_HOME: Spark 설치 경로 지정.findspark.init():이와 같이 환경을 설정하면 PySpark를 활용할 준비가 완료됩니다. 다음 단계에서는 SparkSession을 생성하여 데이터 처리를 시작하는 방법을 다룰 예정입니다.
환경 설정 중 문제가 발생하면, 아래 체크리스트를 참고하세요: