[7월프로젝트]하둡 클러스터 구축하기 (2) - Spark

임재규·2023년 7월 26일

프로젝트

목록 보기

3/11

Spark 설치 후 SparkSession 띄우기

이전에 작성했던 걸 보고 client에서 PySpark를 설치했다.
설치 후 datanode1~5에 spark 파일을 복사하였다.
Spark 설치하기 <-

spark_encore.tar.gz로 압축하여 각 노드에 ssh로 접속 후 압축 해제하는 과정을 진행했다.
scp ./spark_encore.tar.gz datanode1:/home/hadoop/
scp ./spark_encore.tar.gz datanode2:/home/hadoop/
scp ./spark_encore.tar.gz datanode3:/home/hadoop/
scp ./spark_encore.tar.gz datanode4:/home/hadoop/
scp ./spark_encore.tar.gz datanode5:/home/hadoop/

SPARK_HOME과 Jupyter를 웹브라우저에서 접속할 수 있도록 인터페이스 설정

vim .bashrc 수정

export SPARK_HOME="/home/hadoop/spark"
export PYSPARK_DRIVER_PYTHON=jupyter
export PYSPARK_DRIVER_PYTHON_OPTS='notebook --ip=0.0.0.0'

주피터 노트북으로 스파크 세션이 뜨지 않는 오류

client:8888에 접속하여 jupyter notebook을 켜서
from pyspark.sql import SparkSession 명령어를 실행하면 실행이 되지 않는 현상 발생

현상 이유 : excutor 5개가 뜨는 시간이 너무 오래 걸려 timeout 에러 발생