아파치 스파크(Apache Spark) 설치

GarionNachal·2025년 4월 4일

apache spark

목록 보기

3/5

아파치 스파크(Apache Spark) 설치 가이드

안녕하세요! 오늘은 빅데이터 처리를 위한 강력한 엔진인 아파치 스파크(Apache Spark)의 설치 방법에 대해 알아보겠습니다. 스파크는 대용량 데이터 처리, 머신러닝, 실시간 스트리밍 등 다양한 분야에서 활용되고 있는 필수 도구입니다.

사전 요구사항

스파크를 설치하기 전에 필요한 요구사항은 다음과 같습니다:

Java 8 이상: 스파크는 JVM 위에서 동작하므로 Java가 필수적입니다.
Python (선택적): PySpark를 사용하려면 Python이 필요합니다.
Scala (선택적): Scala로 스파크 애플리케이션을 개발하려면 Scala가 필요합니다.
충분한 메모리: 최소 4GB RAM을 권장합니다.

1. Java 설치하기

Windows

Oracle 공식 사이트에서 JDK를 다운로드합니다.
설치 파일을 실행하고 설치 과정을 완료합니다.
시스템 환경 변수에 JAVA_HOME을 추가하고 경로를 설정합니다.
Path 환경 변수에 %JAVA_HOME%\bin을 추가합니다.

macOS

brew install openjdk@11

Linux (Ubuntu/Debian)

sudo apt update
sudo apt install openjdk-11-jdk

설치가 완료되면 다음 명령어로 Java 버전을 확인합니다:

java -version

2. 아파치 스파크 다운로드

아파치 스파크 공식 웹사이트를 방문합니다.
최신 버전과 Hadoop 버전을 선택합니다 (주로 "Pre-built for Apache Hadoop 3.2 and later").
다운로드 링크를 클릭하여 .tgz 파일을 다운로드합니다.

3. 스파크 설치

Windows

다운로드한 .tgz 파일을 압축 해제 도구(7-Zip 등)로 풉니다.
압축을 푼 폴더를 원하는 위치(예: C:\spark)로 이동합니다.
시스템 환경 변수에 SPARK_HOME을 추가하고 경로를 설정합니다 (예: C:\spark).
Path 환경 변수에 %SPARK_HOME%\bin을 추가합니다.

macOS 및 Linux

터미널을 열고 다운로드한 파일을 압축 해제합니다:
```
tar -xzf spark-3.3.0-bin-hadoop3.tgz
```
압축을 푼 폴더를 원하는 위치로 이동합니다:
```
sudo mv spark-3.3.0-bin-hadoop3 /opt/spark
```

환경 변수를 설정합니다:

echo 'export SPARK_HOME=/opt/spark' >> ~/.bashrc
echo 'export PATH=$PATH:$SPARK_HOME/bin' >> ~/.bashrc
source ~/.bashrc

4. 스파크 설치 확인

설치가 제대로 되었는지 확인하려면 터미널 또는 명령 프롬프트에서 다음 명령어를 실행합니다:

spark-shell

Scala 기반의 스파크 셸이 실행되면 다음과 같은 내용이 표시됩니다:

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.3.0
      /_/

PySpark를 확인하려면:

pyspark

5. 스파크 웹 UI 확인

스파크는 기본적으로 웹 UI를 제공합니다. 스파크 애플리케이션이 실행 중일 때 브라우저에서 다음 URL에 접속하면 웹 UI를 확인할 수 있습니다:

스파크 애플리케이션 UI: http://localhost:4040
스파크 마스터 UI(standalone 모드): http://localhost:8080

6. 스파크와 함께 Hadoop 설정 (선택사항)

분산 파일 시스템(HDFS)을 사용하려면 Hadoop도 설치해야 합니다. Hadoop 설치는 별도의 과정이므로 필요한 경우 Hadoop 공식 문서를 참조하세요.

7. IDE에서 스파크 사용하기

IntelliJ IDEA

새 프로젝트 생성 시 Scala 프로젝트를 선택합니다.

build.sbt 파일에 스파크 의존성을 추가합니다:

libraryDependencies += "org.apache.spark" %% "spark-core" % "3.3.0"
libraryDependencies += "org.apache.spark" %% "spark-sql" % "3.3.0"

PyCharm

가상 환경을 생성합니다.
다음 명령어로 PySpark를 설치합니다:
```
pip install pyspark
```

문제 해결

Java 버전 문제: 스파크가 지원하는 Java 버전을 사용하고 있는지 확인하세요.
메모리 부족: 스파크 설정 파일(conf/spark-defaults.conf)에서 메모리 설정을 조정하세요.
포트 충돌: 기본 포트(4040, 8080)가 다른 애플리케이션과 충돌하는 경우 설정을 변경하세요.

결론

이제 아파치 스파크가 성공적으로 설치되었습니다! 기본적인 설치부터 확인까지의 과정을 살펴보았습니다. 스파크를 활용하여 대용량 데이터 처리, 머신러닝, 스트리밍 등 다양한 빅데이터 작업을 수행할 수 있습니다.

다음 단계로는 스파크의 기본 API와 DataFrame, SQL 등을 활용하는 방법을 학습하시면 좋을 것 같습니다. 스파크를 통해 빅데이터의 세계를 즐겁게 탐험하세요!

GarionNachal

AI를 꿈꾸는 BackEnd개발자

이전 포스트

아파치 스파크(Apache Spark)란? - 빅데이터 처리의 핵심 엔진

다음 포스트

아파치 스파크(Apache Spark) 설치

apache spark

아파치 스파크(Apache Spark) 설치 가이드

사전 요구사항

1. Java 설치하기

Windows

macOS

Linux (Ubuntu/Debian)

2. 아파치 스파크 다운로드

3. 스파크 설치

Windows

macOS 및 Linux

4. 스파크 설치 확인

5. 스파크 웹 UI 확인

6. 스파크와 함께 Hadoop 설정 (선택사항)

7. IDE에서 스파크 사용하기

IntelliJ IDEA

PyCharm

문제 해결

결론

아파치 스파크(Apache Spark)란? - 빅데이터 처리의 핵심 엔진

PySpark란, 간단한 사용법

0개의 댓글