1. 하둡과 다른 시스템과의 비교
1) RDMBS와의 비교
- 하지만 하둡 역시 Interactive하게 발전하고 있으며(Hive) 색인이나 트랜잭션 기능을 추가하고 있다.
- 하둡은 처리 시점에 데이터를 해석하도록 설계되어 있기 때문에 비정형 데이터(일반 텍스트, 이미지)나 반정형 데이터(그리드 형태의 셀 구조로 된 스프레드시트)도 잘 처리할 수 있다.
- schema-on-read는 유연성을 제공하고 데이터를 불러오는 비용이 많이 드는 단계(RDBMS는 필요함)도 피할 수 있다.
- 하둡의 핵심 전제는 고속의 순차적 읽기/쓰기이기 때문에 정규화의 문제가 있다.
2) 그리드 컴퓨팅과의 비교
- HPC는 SAN으로 연결된 공유 파일시스템에 접근하는 클러스터 머신 여러 대에 작업을 분산시킨다. 이런 방식은 계산 노드가 대용량 데이터에 접근할 때 네트워크 대역폭 때문에 bottlneck이 생긴다.
- 하둡은 가능하면 계산 노드에 데이터를 함께 배치한다. 데이터가 로컬에 있기 때문에 접근도 빠를 수밖에 없다. Data Locality가 하둡 데이터 처리의 핵심이다.
- 맵리듀스는 실패한 태스크를 자동으로 감지하여 장애 없는 머신에 다시 배치하도록 구현되어 있기 때문에 개발자는 원격 프로세스 실패에 대해 고민 안 해도 된다.