HDFS 블록의 크기가 128MB이고, 1MB 크기의 파일을 저장한다면 128MB의 디스크를 사용하는 것이 아니라 1MB의 디스크만 사용
블록의 크기는 큼
why?
탐색 비용을 최소화하기 위해서
ex) 숟가락 사이즈 큰게 작은거보다 빨리 먹을 수 있음
블록이 매우 크면 블록의 시작점을 탐색하는 데 걸리는 시간을 줄일 수 잇고 데이터를 전송하는데 더 많은 시간을 할애
따라서 여러 개의 블록으로 구성된 대용량 팡리을 전송하는 시간은 디스크 전송 속도에 크게 영향을 받는다.
블록은
HDFS 클러스터는 마스터-워커 패턴으로 동작하는 두 종류의 노드가 존재
하둡의 클러스터 관리 시스템
병렬 처리 모델은 문제를 map, shuffle, reduce 단계로 나눠 수행
입력 데이터가 클러스터에서 병렬로 처리되며 이 맵 단계를 수행하는 mapper함수는 원시 데이터를 key와 value의 쌍으로 변환
변환된 데이터는 키를 기준으로 정렬돼 bucket으로 셔플링 된다.
모든 키의 값을 처리하며 결과를 HDFS나 다른 영구 저장소에 저장한다.