안녕하세요! 오늘은 빅데이터 처리를 위한 강력한 엔진인 아파치 스파크(Apache Spark)의 설치 방법에 대해 알아보겠습니다. 스파크는 대용량 데이터 처리, 머신러닝, 실시간 스트리밍 등 다양한 분야에서 활용되고 있는 필수 도구입니다.
스파크를 설치하기 전에 필요한 요구사항은 다음과 같습니다:
JAVA_HOME을 추가하고 경로를 설정합니다.Path 환경 변수에 %JAVA_HOME%\bin을 추가합니다.brew install openjdk@11
sudo apt update
sudo apt install openjdk-11-jdk
설치가 완료되면 다음 명령어로 Java 버전을 확인합니다:
java -version
.tgz 파일을 다운로드합니다..tgz 파일을 압축 해제 도구(7-Zip 등)로 풉니다.C:\spark)로 이동합니다.SPARK_HOME을 추가하고 경로를 설정합니다 (예: C:\spark).Path 환경 변수에 %SPARK_HOME%\bin을 추가합니다.tar -xzf spark-3.3.0-bin-hadoop3.tgzsudo mv spark-3.3.0-bin-hadoop3 /opt/sparkecho 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> ~/.bashrc
source ~/.bashrc설치가 제대로 되었는지 확인하려면 터미널 또는 명령 프롬프트에서 다음 명령어를 실행합니다:
spark-shell
Scala 기반의 스파크 셸이 실행되면 다음과 같은 내용이 표시됩니다:
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 3.3.0
/_/
PySpark를 확인하려면:
pyspark
스파크는 기본적으로 웹 UI를 제공합니다. 스파크 애플리케이션이 실행 중일 때 브라우저에서 다음 URL에 접속하면 웹 UI를 확인할 수 있습니다:
http://localhost:4040http://localhost:8080분산 파일 시스템(HDFS)을 사용하려면 Hadoop도 설치해야 합니다. Hadoop 설치는 별도의 과정이므로 필요한 경우 Hadoop 공식 문서를 참조하세요.
build.sbt 파일에 스파크 의존성을 추가합니다:libraryDependencies += "org.apache.spark" %% "spark-core" % "3.3.0"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.3.0"pip install pysparkconf/spark-defaults.conf)에서 메모리 설정을 조정하세요.이제 아파치 스파크가 성공적으로 설치되었습니다! 기본적인 설치부터 확인까지의 과정을 살펴보았습니다. 스파크를 활용하여 대용량 데이터 처리, 머신러닝, 스트리밍 등 다양한 빅데이터 작업을 수행할 수 있습니다.
다음 단계로는 스파크의 기본 API와 DataFrame, SQL 등을 활용하는 방법을 학습하시면 좋을 것 같습니다. 스파크를 통해 빅데이터의 세계를 즐겁게 탐험하세요!