


"EMR의 'MapReduce'는 Google에서 개발한 분산처리 기술에서 유래되었다."
데이터 양이 단일 서버로 감당할 수 없는 수준일 때, EMR의 분산 처리 성능이 필요하다.

EMR 클러스터는 EC2 인스턴스를 기반으로 다음 3가지 노드로 구성된다:
| 노드 종류 | 역할 |
|---|---|
| Master Node | 클러스터 제어 및 작업 스케줄링 역할 |
| Core Node | 데이터 연산 및 HDFS 저장소 기능 수행 |
| Task Node (선택사항) | 연산 전용, 저장소는 없음 (즉시 확장 가능) |
코어/태스크 노드는 자동 또는 수동 스케일링이 가능하다.
| 파일 시스템 | 설명 |
|---|---|
| HDFS (Hadoop Distributed File System) | 클러스터 내부 노드에 저장. 클러스터 종료 시 데이터 소실 |
| EMRFS (EMR File System) | Amazon S3를 백엔드 스토리지로 사용. 클러스터 종료 후에도 데이터 유지 가능 |

대부분의 실무에서는 EMRFS + S3 조합이 권장된다. S3의 버전 관리, 암호화, 내구성도 보장된다.
Q. Amazon EMR 클러스터에서 처리한 결과를 S3에 저장할 때 사용하는 기능은?
| 항목 | 내용 |
|---|---|
| 핵심 개념 | 클라우드 기반 빅데이터 분석 플랫폼 |
| 분산 처리 | 다수의 노드로 데이터 병렬 처리 |
| 저장 방식 | HDFS (임시) / EMRFS (지속) + S3 연동 |
| 활용 사례 | 대규모 로그 분석, ML 전처리, 실시간 처리 |
| 시험 포인트 | EMRFS, 클러스터 노드 구조, S3 연계 |