데이터가 단일 물리 머신의 저장 용량을 초과하게 되면 전체 데이터셋을 분리된 여러 머신에 나눠서 저장해야 함네트워크로 연결된 여러 머신의 스토리지를 관리하는 파일시스템을 분산 파일시스템 이라고 함분산 파일시스템의 목표는 특정 노드에 장애가 발생해도 자료가 유실되지 않는
회사의 주요 데이터는 대부분 RDBMS에 저장되어 있다. 스쿱(Sqoop)은 RDBMS에서 HDFS로 데이터를 보내는 작업과 HDFS에서 RDBMS로 데이터를 보내는 작업을 쉽게 처리해주는 오픈소스 도구이다. 스쿱은 내부적으로 RDBMS의 테이블에서 행을 추출하는 맵