구성요소명 | 역할 및 설명 |
---|---|
하둡 커먼 (Hadoop Common) | 하둡 프레임워크 전반에서 공통으로 사용하는 라이브러리와 유틸리티 모음. 자바 기반으로 작성되어 있으며, 파일 시스템, RPC(Remote Procedure Call), 직렬화(Serialization) 기능 등 하둡 시스템의 기본 인프라 제공 |
하둡 분산 파일 시스템 (HDFS: Hadoop Distributed File System) | 대용량 데이터를 여러 대의 컴퓨터(노드)에 분산 저장하기 위한 파일 시스템. 데이터 블록 단위로 나누어 복제(Replication)하며, 내결함성(Fault Tolerance)과 고가용성(High Availability)을 보장 |
YARN (Yet Another Resource Negotiator) | 하둡 클러스터의 자원 관리 및 작업 스케줄링을 담당하는 컴포넌트. CPU, 메모리 등 자원을 할당하고 여러 종류의 분산 애플리케이션(예: MapReduce, Spark)을 효율적으로 실행할 수 있도록 지원 |
맵리듀스 (MapReduce) | 하둡의 분산 데이터 처리 프로그래밍 모델 및 실행 엔진. 데이터를 맵(Map) 단계에서 분할 처리하고, 리듀스(Reduce) 단계에서 결과를 통합하는 방식으로 대용량 데이터 병렬 처리 수행 |
아키텍처:
특징:
기존 하둡 1.x의 자원 관리 한계를 극복하기 위해 하둡 2.x에서 도입
클러스터의 자원(CPU, 메모리 등)을 여러 애플리케이션 간에 할당 및 조정
주요 구성 요소:
프로그래밍 모델:
실행 과정: MapReduce 작업은 YARN 위에서 컨테이너 단위로 실행됨
빅데이터 분석, 로그 처리, 통계 집계 등에 널리 활용됨
구성요소 | 역할 |
---|---|
Hadoop Common | 공통 라이브러리 및 유틸리티 제공 |
HDFS | 데이터 분산 저장 및 내결함성 보장 |
YARN | 클러스터 자원 관리 및 작업 스케줄링 |
MapReduce | 대용량 데이터 병렬 처리 프로그래밍 모델 |