현재 테스트 중인 EMR은 1 NameNode 2 Datanode로 모두 m5.xlarge (4vcpu 16gb) 를 사용하고 있다. 이와 같이 설정하였을 때 spark-defaults.conf 에서 주요 설정들을 뜯어보고자 한다.
spark.executor.memory 4743M
spark.executor.cores 2
spark.driver.memory 2048M
spark.emr.default.executor.memory 4743M
spark.emr.default.executor.cores 2
일단 생각보다 executor (slave) core 의 스펙이 높게 설정되어 있다고 생각하고 실제 사용시에는 core 1로 설정하여 사용하는게 좋아보인다.
/usr/lib/spark/jars
분명 나중에 kafka관련 메세지 컨슈밍할 때 (개인 공부) jar파일 부제로 인한 오류가 뜰것으로 예상이 되며 해당 경로에 jar파일을 추가해 주면 해결되지 않을까 싶다.
spark.blacklist.decommissioning.enabled true
spark.blacklist.decommissioning.timeout 1h
Spark에 대한 처음으로 안 개념이 있어 소개하고자 한다