EMR Spark-defaults.conf 뜯어보기

록스블로그·2023년 10월 27일
0

현재 테스트 중인 EMR은 1 NameNode 2 Datanode로 모두 m5.xlarge (4vcpu 16gb) 를 사용하고 있다. 이와 같이 설정하였을 때 spark-defaults.conf 에서 주요 설정들을 뜯어보고자 한다.

spark.executor.memory            4743M
spark.executor.cores             2
spark.driver.memory              2048M
spark.emr.default.executor.memory 4743M
spark.emr.default.executor.cores 2

일단 생각보다 executor (slave) core 의 스펙이 높게 설정되어 있다고 생각하고 실제 사용시에는 core 1로 설정하여 사용하는게 좋아보인다.

/usr/lib/spark/jars

분명 나중에 kafka관련 메세지 컨슈밍할 때 (개인 공부) jar파일 부제로 인한 오류가 뜰것으로 예상이 되며 해당 경로에 jar파일을 추가해 주면 해결되지 않을까 싶다.

spark.blacklist.decommissioning.enabled true
spark.blacklist.decommissioning.timeout 1h

Blacklist

Spark에 대한 처음으로 안 개념이 있어 소개하고자 한다

  • 테스크, 스테이지, 전체 엑시큐터에서 반복적으로 실패하는 노드를 자동으로 블랙리스트에 추가하여 사용하지 않는 기능, 아마 많이 접하지는 않겠지만 그래도 한가지 개념에 대해서 더 배웠다.
profile
어려움에 성장하는 데이터 엔지니어

0개의 댓글