Spark

김혁·2024년 3월 28일

hadoop & spark

목록 보기

6/8

parquet 같은 경우 이 포맷은 안에 스키마를 가지고 있다. field 뿐만 아니라 type도 알고 있다. 스키마 에볼루션을 지원해서 나중에 컬럼이 추가되도 문제 없이 사용 가능.

개발자가 작성한 코드가 어떻게 실행되는지 web ui를 통해서 확인할 수 있다.

대부분의 입력데이터는 hdfs상에 존재하는데 어떤 format으로 저장할 것인가?
읽어올 때 영향을 끼칠 수 있음.

bucketing은 특정 컬럼을 기준으로 데이터를 재분배
partitioning은 특정 컬럼을 기준으로 디렉토리 생성.

EMR은 Elastic MapReduce 이다. EMR위에서 spark job을 실행하는 것이 일반적이다.

EMR은 aws의 하둡 서비스다.
hadoop&yarn, spark, hive, notebook 등이 설치되어 제공되는 서비스
ec2 서버들을 worker node로 사용하고 s3를 hdfs로 사용

EMR 클러스터 생성 EMR 생성시 spark를 실행 (옵션으로 선택해야함)
EMR의 마스터 노드를 드라이버 노드로 사용
마스터 노드를 ssh로 로그인 -> spark submit 사용
spark의 cluster 모드에 해당

노트북인데 스파크 전용 노트북

군도리