아파치 스파크(Apache Spark) 설치

GarionNachal·2025년 4월 4일

apache spark

목록 보기
3/5

아파치 스파크(Apache Spark) 설치 가이드

안녕하세요! 오늘은 빅데이터 처리를 위한 강력한 엔진인 아파치 스파크(Apache Spark)의 설치 방법에 대해 알아보겠습니다. 스파크는 대용량 데이터 처리, 머신러닝, 실시간 스트리밍 등 다양한 분야에서 활용되고 있는 필수 도구입니다.

사전 요구사항

스파크를 설치하기 전에 필요한 요구사항은 다음과 같습니다:

  1. Java 8 이상: 스파크는 JVM 위에서 동작하므로 Java가 필수적입니다.
  2. Python (선택적): PySpark를 사용하려면 Python이 필요합니다.
  3. Scala (선택적): Scala로 스파크 애플리케이션을 개발하려면 Scala가 필요합니다.
  4. 충분한 메모리: 최소 4GB RAM을 권장합니다.

1. Java 설치하기

Windows

  1. Oracle 공식 사이트에서 JDK를 다운로드합니다.
  2. 설치 파일을 실행하고 설치 과정을 완료합니다.
  3. 시스템 환경 변수에 JAVA_HOME을 추가하고 경로를 설정합니다.
  4. Path 환경 변수에 %JAVA_HOME%\bin을 추가합니다.

macOS

brew install openjdk@11

Linux (Ubuntu/Debian)

sudo apt update
sudo apt install openjdk-11-jdk

설치가 완료되면 다음 명령어로 Java 버전을 확인합니다:

java -version

2. 아파치 스파크 다운로드

  1. 아파치 스파크 공식 웹사이트를 방문합니다.
  2. 최신 버전과 Hadoop 버전을 선택합니다 (주로 "Pre-built for Apache Hadoop 3.2 and later").
  3. 다운로드 링크를 클릭하여 .tgz 파일을 다운로드합니다.

3. 스파크 설치

Windows

  1. 다운로드한 .tgz 파일을 압축 해제 도구(7-Zip 등)로 풉니다.
  2. 압축을 푼 폴더를 원하는 위치(예: C:\spark)로 이동합니다.
  3. 시스템 환경 변수에 SPARK_HOME을 추가하고 경로를 설정합니다 (예: C:\spark).
  4. Path 환경 변수에 %SPARK_HOME%\bin을 추가합니다.

macOS 및 Linux

  1. 터미널을 열고 다운로드한 파일을 압축 해제합니다:
    tar -xzf spark-3.3.0-bin-hadoop3.tgz
  2. 압축을 푼 폴더를 원하는 위치로 이동합니다:
    sudo mv spark-3.3.0-bin-hadoop3 /opt/spark
  3. 환경 변수를 설정합니다:
    echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
    echo 'export PATH=$PATH:$SPARK_HOME/bin' >> ~/.bashrc
    source ~/.bashrc

4. 스파크 설치 확인

설치가 제대로 되었는지 확인하려면 터미널 또는 명령 프롬프트에서 다음 명령어를 실행합니다:

spark-shell

Scala 기반의 스파크 셸이 실행되면 다음과 같은 내용이 표시됩니다:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.3.0
      /_/

PySpark를 확인하려면:

pyspark

5. 스파크 웹 UI 확인

스파크는 기본적으로 웹 UI를 제공합니다. 스파크 애플리케이션이 실행 중일 때 브라우저에서 다음 URL에 접속하면 웹 UI를 확인할 수 있습니다:

  • 스파크 애플리케이션 UI: http://localhost:4040
  • 스파크 마스터 UI(standalone 모드): http://localhost:8080

6. 스파크와 함께 Hadoop 설정 (선택사항)

분산 파일 시스템(HDFS)을 사용하려면 Hadoop도 설치해야 합니다. Hadoop 설치는 별도의 과정이므로 필요한 경우 Hadoop 공식 문서를 참조하세요.

7. IDE에서 스파크 사용하기

IntelliJ IDEA

  1. 새 프로젝트 생성 시 Scala 프로젝트를 선택합니다.
  2. build.sbt 파일에 스파크 의존성을 추가합니다:
    libraryDependencies += "org.apache.spark" %% "spark-core" % "3.3.0"
    libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.3.0"

PyCharm

  1. 가상 환경을 생성합니다.
  2. 다음 명령어로 PySpark를 설치합니다:
    pip install pyspark

문제 해결

  1. Java 버전 문제: 스파크가 지원하는 Java 버전을 사용하고 있는지 확인하세요.
  2. 메모리 부족: 스파크 설정 파일(conf/spark-defaults.conf)에서 메모리 설정을 조정하세요.
  3. 포트 충돌: 기본 포트(4040, 8080)가 다른 애플리케이션과 충돌하는 경우 설정을 변경하세요.

결론

이제 아파치 스파크가 성공적으로 설치되었습니다! 기본적인 설치부터 확인까지의 과정을 살펴보았습니다. 스파크를 활용하여 대용량 데이터 처리, 머신러닝, 스트리밍 등 다양한 빅데이터 작업을 수행할 수 있습니다.

다음 단계로는 스파크의 기본 API와 DataFrame, SQL 등을 활용하는 방법을 학습하시면 좋을 것 같습니다. 스파크를 통해 빅데이터의 세계를 즐겁게 탐험하세요!

profile
AI를 꿈꾸는 BackEnd개발자

0개의 댓글