01. emr구조에 대한 이해

- Core Node, Task Node 둘다 작업노드(worker)이다.
- Core Node의 경우 HDFS에 이미 데이터가 분산되어있으므로 Node수를 줄이는 Scale In시 문제가 있을 수 있다.

- data node 와 computing node를 분리하여 사용 할 수 있다. (decoupling: 분리시키다.)
- 클라우드 비용을 줄일 수 있다.
- 아키텍쳐링에 유리하다.


02. EMR 실행

Reference
클라우드를 활용한 데이터 파이프라인 구축 Online.