-
Apache 프로젝트의 맵리듀스 프레임워크의 오픈 소스
-
하둡 분산 파일 시스템
- 빅데이터 파일을 여러 대의 컴퓨터에 나누어서 저장함
- 각 파일은 여러 개의 순차적인 블록으로 저장함
- 하나의 파일의 각각의 블록은 폴트 톨러런스(fault tolerance)를 위해서 여러 개로 복사되어 여러 머신의 여기저기 저장됨
- 폴리 톨러런스는 시스템을 구성하는 부품 일부에 결함이 생기더라도 부분적, 정상적 기능을 수행할 수 있는 것을 말함
-
빅 데이터를 수천대의 값싼 컴퓨터에 병렬 처리하기 위해 분산함
-
주요 구성 요소들
- MapReduce - 소프트웨어의 수행을 분산
- Hadoop Distributed File System - 데이터를 분산함
-
한 개의 Namenode와 여러 개의 Datanode
- Namenode : 파일 시스템을 관리하고 클라이언트가 파일에 접근할 수 있게 함
- Datanode : 컴퓨터에 들어있는 데이터를 접근할 수 있게 함
-
자바 프로그래밍 언어로 맵리듀스 알고리즘을 구현