parquet 같은 경우 이 포맷은 안에 스키마를 가지고 있다. field 뿐만 아니라 type도 알고 있다. 스키마 에볼루션을 지원해서 나중에 컬럼이 추가되도 문제 없이 사용 가능.
개발자가 작성한 코드가 어떻게 실행되는지 web ui를 통해서 확인할 수 있다.
대부분의 입력데이터는 hdfs상에 존재하는데 어떤 format으로 저장할 것인가?
읽어올 때 영향을 끼칠 수 있음.
bucketing은 특정 컬럼을 기준으로 데이터를 재분배
partitioning은 특정 컬럼을 기준으로 디렉토리 생성.
EMR은 Elastic MapReduce 이다. EMR위에서 spark job을 실행하는 것이 일반적이다.
EMR은 aws의 하둡 서비스다.
hadoop&yarn, spark, hive, notebook 등이 설치되어 제공되는 서비스
ec2 서버들을 worker node로 사용하고 s3를 hdfs로 사용
노트북인데 스파크 전용 노트북