EMR (Elastic MapReduce) : AWS 내에 Hadoop(YARN), Spark, Hive, Notebook 등이 설치되어 제공되는 서비스로 EC2 서버들을 worker node로 사용하고 S3를 HDFS로 사용한다.
-> S3를 기본 파일 시스템으로 사용하며 EMR의 마스터 노드(SSH로 로그인 후 spark-submit 실행해)를 드라이버 노드로 사용. -> spark의 client가 아닌 cluster 모드에 해당
해당 내용 숙지 必
EMR 상의 SPARK JOB은 YARN Cluster 모드로 실행