[Spark] pyspark 설치 방법

hugingstar·2025년 12월 11일

DevOps

목록 보기
14/14
post-thumbnail

이번 글에서는 Apache spark 3.5.7 버전을 내 python3.9 가상환경에 설치해본다.

1. Jave 설치

  • pyspark를 설치하려면, java 부터 설치해야한다.
  • 이번에 설치할 Apache spark는 3.5.7 버전이지만, 최신 버전은 4.0.1.이다 그런데 하둡 버전 맞는 것도 없고 해서 3.5.7을 다운로드 하고, 나중에 업그레이 고려해서 java 17이상을 다운로드한다ㅣ.
  • 나중에는 java 버전 낮아도 수정해줘야한다.

https://www.oracle.com/java/technologies/javase/jdk17-archive-downloads.html

2. Jave 환경변수 설정 및 확인

  • 제어판 > 시스템 환경 변수 편집 > 고급 > 환경 변수

  • 시스템 변수 > 새로 만들기

  • JAVA_HOME 편집

JAVA_HOME
C:\Program Files\Java\jdk-17

  • Path에 추가

%JAVA_HOME%\bin

  • jdk-17이 깔끔하게 설치 완료되었다.

java -version

3. Apache Spark 3.5.7 다운로드

  • 아래 주소로 들어가서 spark 3.5.1을 다운로드 받는다.
  • 2번에서 Hadoop 버전은 처음에 설정된 그대로 다운받는다. (하둡 버전 3.3 인거 체크)

    https://spark.apache.org/downloads.html

  • 3번 들어가서 압축 파일 다운로드 한다. 처음 링크 눌러서 다운로드한다.(스파크가 3.5.7인 것 확인하기)

  • C드라이브에 spark 폴더 하나 만들고 다운로드 받은거 압축해제해줬다.

4. Winutils 다운로드

  • 하둡 버전에 맞춰서 다운로드 받는다.가장최신 버전 사용하였다. (하둡 버전 3.3.6)
  • winutils.exe만 다운받는다.

https://github.com/cdarlint/winutils

  • C드라이브에 Hadoop 폴더 만들고, bin 폴더 하나 만들어준다. 그곳에 winutils.exe 파일 넣어주었다.

C:\Hadoop\hadoop-3.3.6

5. 환경변수 등록하기

  • SPARK_HOME 환경변수 등록

SPARK_HOME
C:\spark\spark-3.5.7-bin-hadoop3

Path 변수에 등록
%SPARK_HOME%\bin

  • HADOOP_HOME 환경변수 등록

HADOOP_HOME
C:\Hadoop\hadoop-3.3.6

Path 변수에 등록
%HADOOP_HOME%\bin

6. Pyspark 설치하기

  • VSCode에서 pyspark 3.5.7 버전을 다운로드 받는다.

pip install pyspark==3.5.7

7. Pyspark 테스트

localhost:4040

Reference

https://passwd.tistory.com/entry/Window-Spark-%EC%84%A4%EC%B9%98

https://boring-notes.tistory.com/entry/Spark-Windows-%EC%84%A4%EC%B9%98

0개의 댓글