[spark 4] 6-1. Spark EMR 론치

data_hamster·2023년 8월 5일
0

AWS EMR을 통해 스파크 클러스터 론치


스파크는 결국 얀 등 위에서 돌아감.
AWS에서는 얀 위에서 실행. AWS 에서 얀을 EMR이라고 부름. (하둡이라고도 함) AWS 하둡서비스. 얀.

이 EMR을 설치할 때 다른 데이터 스택을 선택하는데, spark, hive 등을 선택. 재플린 같은 스파크 전용 노트북으로 실행. 재플린도 나중에 설명.
EMR은 ec2 노드를 워커노드로 사용.
클라우드 스토리지가 HDFS

다른 서비스와 연동 쉬움, 레드쉬프트 등


그림으로 설명 후 데모.
EMR을 생성할 때 스파크를 옵션으로 선택함.
기본적으로 s3를 HDFS로 사용함.
내가 프로그래밍을 했을 경우 드라이버 프로그램 어디에 실행할 것인가 - master에서 실행(드라이버 노드) .ssh로 로그인해서 스파크서밋으로 실행.

스파크의 클러스터 모드에 해당.- 클러스터 안에 들어가서 실행

  • 프로덕션 환경에 적함

클라이언트 모드 - 노트북, 인터렉티브환경. 연습용


실행모드 클라이언트, 클러스터

클러스터 매니저
로컬, 얀

클러스터 - 얀으로 보통 돌림
실행 방식은 스파크 서밋.

나머지는 인터렉티브함.
클라이언트 모드면 얀이어도 밖에서도 실행 가능.

로컬스탠드얼론으로 클라이언트 모드로 우리는 실습했었음.


AWS에 로그인해서
EMR을 선택.

EMR 페이지로 넘어가서 Create Cluster

SparkTest를 선택.
s3 폴더가 하나 생성될 것임.
EMR 클러스터에서 뭔가 실행시키면 로그가 남음.

config에서 EMR 6.9.0 선택
그 밑에 spark 데이터 스택 선택. 재플린도 같이 딸려옴.


스파크 전용 노트북이라 생각.
기본 백엔드는 파이썬 기타 등등도 실행도 가능
오픈소스로 시작했던 사람 - 이문순


m5.xlarge 세개의 노드
하루에 35불 발생.


ssh로 로그인하려면 마스터 노드의 22번 포트가 열려있어야 함. 보안, 액세스에서 master 그룹을 클릭해서

페이지로 이동.
inbound rule을 선택하고 포트 22번을 오픈함.
오픈이 안되어있다면 수정함.


스파크 히스토리 서버를 실행할 수 있음
웹 UI임

실습

AWS 계정 로그인
EMR 서비스로 이동

적당한 이름 부여

폴더를 정하고 디폴트 폴더 그대로 쓰면 됨.
그다음 어떤 데이터 스텍을 쓸 것인지 정해야 함.

위에버전 6.9.0을 선택
spark 버전이 3.3.0으로 되어 있음

그 전에 구글 콜랩 버전에 가장 근접함.
재플린도 있는걸 확인함.

하드웨어 config

m5.xlarge에 3대 인스턴스

ec2 키페어는 이걸로 나중에 마스터 노드에 로그인 할 것임. .ssh

쓰던게 있으면 써주면 됨. 없는 사람들 choose an option으로 새로운거 만들어서 받아야 함.
이 파일이 있어야지 .ssh로 로그인할 수 있음.

만들어주면 된다.

마스터 퍼플릭 DNS에 .ssh로 로그인할 것임.

밑으로 내려가보면 선택했던 데이터 스택 나옴

로그가 어디에 남는지도 있음.

스파크 웹 ui


아직은 이렇게 뜸. 실행한 잡이 없기 때문임.


emr의 보안그룹이 있을 것임
들어가본다

네트워크보안 같은거임.
.ssh로 로그인할 수 있어야하기에
inbound rule에 들어가본다

없으면 들어가서 추가시켜줘야함.

profile
반갑습니다 햄스터 좋아합니다

0개의 댓글