(수정중)Hadoop: HDFS란?

찌부·2023년 6월 19일

Haive aws hadoop 하둡 하이브

🐘 Hadoop

목록 보기

2/3

하둡 분산 파일시스템

블록

HDFS 블록의 크기가 128MB이고, 1MB 크기의 파일을 저장한다면 128MB의 디스크를 사용하는 것이 아니라 1MB의 디스크만 사용

블록의 크기는 큼
why?
탐색 비용을 최소화하기 위해서
ex) 숟가락 사이즈 큰게 작은거보다 빨리 먹을 수 있음

블록이 매우 크면 블록의 시작점을 탐색하는 데 걸리는 시간을 줄일 수 잇고 데이터를 전송하는데 더 많은 시간을 할애
따라서 여러 개의 블록으로 구성된 대용량 팡리을 전송하는 시간은 디스크 전송 속도에 크게 영향을 받는다.

블록은

내고장성
가용성
을 제공하는 데 필요한
복제
를 구현할 때 적합

네임노드와 데이터노드

HDFS 클러스터는 마스터-워커 패턴으로 동작하는 두 종류의 노드가 존재

1. 네임노드

파일 시스템의 네임스페이스를 관리

2. 데이터노드

파일시스템의 실질적인 일꾼

리소스 관리자와 스케쥴러

1. YARN()

하둡의 클러스터 관리 시스템

YARN의 구성

Resource Manager라고 불리는 마스터 노드
- 클러스터 전체의 계산 리소스를 관리하고, 클라이언트가 요구한 리소스를 노드매니저로부터 확보하도록 스케쥴링 함

분산 데이터 처리 프레임워크

맵리듀스

병렬 처리 모델은 문제를 map, shuffle, reduce 단계로 나눠 수행

map

입력 데이터가 클러스터에서 병렬로 처리되며 이 맵 단계를 수행하는 mapper함수는 원시 데이터를 key와 value의 쌍으로 변환

shuffle

변환된 데이터는 키를 기준으로 정렬돼 bucket으로 셔플링 된다.

reduce

모든 키의 값을 처리하며 결과를 HDFS나 다른 영구 저장소에 저장한다.

찌부

데이터 분석중 ...ing☆

이전 포스트

Hadoop: wordcount 해보기

다음 포스트