[Spark] Client Mode

YS Choi·2024년 4월 3일

Hadoop Ecosystem

목록 보기

13/17

목표:
1) 영화 데이터(movie.csv)를 hadoop에 전달.
2) 실행파일(ex01.py) 생성
2) Spark의 Client모드로 Data 출력

1) movie.csv (ubuntu->hadoop)

# 디렉토리 생성
hdfs dfs -mkdir -p /spark/movie/input/

# movie.csv (ubuntu -> hadoop)
hdfs dfs -put /home/ubuntu/data/movie.csv /spark/movie/input/

# 확인
hdfs dfs -ls -R /spark

2) 실행 스크립트 생성 (pyspark_ex01.py)

cd ~/src
vim pyspark_ex01.py

###############
### pyspark_ex01.py ###
###############
from pyspark.sql import SparkSession
  
sc = SparkSession.builder\
        .master("yarn")\
        .appName("PySpark Test")\
        .getOrCreate()
df = sc.read.csv("hdfs:///spark/movie/input/movie.csv", header=True)

df.show()

3) Client Mode로 Data 출력

# cd ~/src
spark-submit --master yarn --deploy-mode client pyspark_ex01.py

YS Choi

이전 포스트

[Hadoop] 12. Crawling을 통한 Wordcount

다음 포스트

[Spark] Client Mode

Hadoop Ecosystem

1) movie.csv (ubuntu->hadoop)

2) 실행 스크립트 생성 (pyspark_ex01.py)

3) Client Mode로 Data 출력

[Hadoop] 12. Crawling을 통한 Wordcount

[Spark] pyspark tutorial (1)

0개의 댓글