[spark] - 설치

유현민·2022년 4월 28일

아파치 스파크

목록 보기

1/1

(pycharm을 사용해도 상관 없습니다.)

다운로드 페이지로 이동하여 다운로드를 받아준다. jdk8 or jdk 11을 받아주세요!!
다운을 받은 후 설치를 할 때 경로를 자기가 알기 쉬운 경로로 해주세요(환경 변수 편하게 지정하기 위해서)
C:\jdk <- 저는 여기로 했습니다.

다운로드 페이지로 이동.

저는 이 상태 그대로 다운 받았습니다.
하둡 버전을 잘 기억해 주세요
압축을 풀어주세요
압축을 풀어주고 폴더 안으로 들어가 안에 있는 파일을 통채로 복사해주세요.
아까처럼 쉬운 경로에 폴더를 하나 만들고 붙여넣기를 해주세요
C:\spark <- 저는 여기로 했습니다.
설치 폴더로 이동한 후 conf 폴더로 이동해 주세요.
log4j.properties.template 파일의 이름에서 template를 지워주세요
properties.template파일을 wordpad로 열어주세요
rootCategory=INFO를 rootCategory=ERROR로 바꿔주세요

이렇게 하면 작업을 실행할 때 출력하는 모든 logs span의 클러터를 없앨 수 있습니다.

하둡을 설치하지 않아도 spark를 사용할 수 있게 해주는 프로그램(?) 입니다.

사용자 변수 or 시스템 변수에 추가해주면 된다.
1. 새로 만들기 클릭

새로 만들기 클릭
변수 이름 : SPARK_HOME 변수 값 : spark폴더
만약 spark 3.1 버전 이상이면
새로 만들기 -> 변수 이름 : PYSPARK_PYTHON 변수 값 : python
path 편집 (저는 시스템 변수에 했습니다. 사용자 변수도 똑같습니다!)

path 더블 클릭 -> 새로 만들기 -> %SPARK_HOME%\bin -> 새로 만들기 -> %JAVA_HOME%\bin -> 확인 -> 확인 -> 확인

rdd = sc.textFile("README.md")
rdd.count()

고생하셨습니다!!

smilegate megaport infra