앞선 실습에서 iris.csv, iris.parquet 두개의 데이터를 data 폴더에 넣어주기 (경로 설정을 위해서 동일하게 맞춰줌)
설치를 위한 app 폴더 생성
app/spark에서 spark 다운로드
wget https://dlcdn.apache.org/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
tar -zxvf spark-3.5.1-bin-hadoop3.tgz
vi ~/.bashrc
---
# 맨 아래에 추가
export SPARK_HOME=/home/ubuntu/app/spark/spark-3.5.1-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export PYSPARK_PYTHON=/home/ubuntu/.pyenv/versions/py3_11_9/bin/python
---
/home/ubuntu/app/spark/spark-3.5.1-bin-hadoop3/bin/pyspark
>>> df = spark.read.parquet("/home/ubuntu/work/spark01/data/iris.parquet")
>>> df.show(3)
ui 로 확인해보기
mkdir ~/work/jupyter
cd ~/work/jupyter
# 가상환경활성화
pyenv activate py3_11_9
# jupyter lab 다운로드
pip install jupyterlab
# 설정파일 생성
jupyter lab --generate-config
# 설정파일 확인
ls ~/.jupyter
# 설정파일 변경 (아래 사항들 추가해주기)
vi ~/.jupyter/jupyter_lab_config.py
---
# 모든 ip를 받겠다
c.NotebookApp.ip = '0.0.0.0'
# 기본적으로 뜨는 웹 브라우저를 띄우지 않겠다.
c.NotebookApp.open_browser = False
# 8888 port를 사용하겠다
c.NotebookApp.port = 8888
# token설정 (안하고 싶으면 ''으로 )
c.NotebookApp.token = '나의 토큰'
# 비밀번호 설정해주기
c.NotebookApp.password = '나의 비밀번호'
# home dir 설정해주기
c.ServerApp.root_dir = '/home/ubuntu/work/jupyter'
---
vi ~/.bashrc
---
# jupyter lab 설정 추가
export PYSPARK_DRIVER_PYTHON="jupyter"
export PYSPARK_DRIVER_PYTHON_OPTS="lab"
---
source ~/.bashrc
exec $SHELL
pyenv activate py3_11_9
pip install findspark
주피터 노트북을 위한 포트 열기 : 보안그룹 8888 열어주기
실행시키기
jupyter lab