DevCourse TIL Day5 Week14 - AWS spark launch

김태준·2023년 7월 7일
0

Data Enginnering DevCourse

목록 보기
66/93
post-thumbnail

✅ AWS EMR launch

EMR (Elastic MapReduce) : AWS 내에 Hadoop(YARN), Spark, Hive, Notebook 등이 설치되어 제공되는 서비스로 EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용한다.

-> S3를 기본 파일 시스템으로 사용하며 EMR의 마스터 노드(SSH로 로그인 후 spark-submit 실행해)를 드라이버 노드로 사용. -> spark의 client가 아닌 cluster 모드에 해당
해당 내용 숙지 必

✅ PySpark Job launch

EMR 상의 SPARK JOB은 YARN Cluster 모드로 실행

profile
To be a DataScientist

0개의 댓글