데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장할 필요가 있음네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일 시스템을 분산 파일시스템이라고 함분산 파일시스템은 네트워크 기반이므로 네트워크 프로그램의 복잡성을
YARN은 (Yet Another Resource Negotiator) 하둡의 클러스터 자원관리 시스템이다. YARN은 수백, 수천개의 노드로 구성된 클러스터에서 작업이 제출되면 수많은 작업들을 관리하고, 특정 작업에 사용할 자원(CPU, RAM)을 관리해주는 분산자원
맵리듀스는 구글에서 대용량 데이터 처리를 분산 병렬 컴퓨팅에서 처리하기 위한 목적으로 개발한 프레임워크이다. 성능이 낮은 컴퓨터로 구성된 클러스터 환경에서 병렬 처리를 지원하기 위해 개발되었다.HDFS가 하둡의 저장소를 담당했다면, 맵리듀스는 하둡에서 연산을 담당한다.
Hadoop Eco System의 분산 코디네이션 서비스(Distributed Coordination Service)인 주키퍼에 대해서 간단히 알아보자.주키퍼는 Yahoo에서 처음 개발되어 Apache License로 오픈소스 된 프로젝트이다.이름의 유래가 조금 재미있