하둡 프레임워크(Hadoop Framework) 주요 구성요소

agnusdei·2025년 7월 27일

ICT

목록 보기

33/144

하둡 프레임워크(Hadoop Framework) 주요 구성요소

구성요소명	역할 및 설명
하둡 커먼 (Hadoop Common)	하둡 프레임워크 전반에서 공통으로 사용하는 라이브러리와 유틸리티 모음. 자바 기반으로 작성되어 있으며, 파일 시스템, RPC(Remote Procedure Call), 직렬화(Serialization) 기능 등 하둡 시스템의 기본 인프라 제공
하둡 분산 파일 시스템 (HDFS: Hadoop Distributed File System)	대용량 데이터를 여러 대의 컴퓨터(노드)에 분산 저장하기 위한 파일 시스템. 데이터 블록 단위로 나누어 복제(Replication)하며, 내결함성(Fault Tolerance)과 고가용성(High Availability)을 보장
YARN (Yet Another Resource Negotiator)	하둡 클러스터의 자원 관리 및 작업 스케줄링을 담당하는 컴포넌트. CPU, 메모리 등 자원을 할당하고 여러 종류의 분산 애플리케이션(예: MapReduce, Spark)을 효율적으로 실행할 수 있도록 지원
맵리듀스 (MapReduce)	하둡의 분산 데이터 처리 프로그래밍 모델 및 실행 엔진. 데이터를 맵(Map) 단계에서 분할 처리하고, 리듀스(Reduce) 단계에서 결과를 통합하는 방식으로 대용량 데이터 병렬 처리 수행

상세 설명

1. 하둡 커먼 (Hadoop Common)

하둡을 구성하는 모든 모듈에서 공통으로 사용되는 유틸리티와 라이브러리 집합
파일 시스템 추상화, 네트워크 통신, 데이터 직렬화, 자바 API 등을 제공하여 다른 구성요소들이 쉽게 통합되고 확장될 수 있도록 함

2. 하둡 분산 파일 시스템 (HDFS)

아키텍처:
- NameNode: 메타데이터(파일과 디렉터리 구조, 블록 위치 등)를 관리하는 중앙 관리 서버
- DataNode: 실제 데이터를 저장하는 노드로, NameNode의 지시에 따라 데이터를 저장 및 복제
특징:
- 대용량 파일을 128MB(기본) 단위 블록으로 분할하여 저장
- 블록 복제를 통해 데이터 손실 방지 (기본 복제 수 3)
- 장애 발생 시 자동 복구 및 재복제

3. YARN (Yet Another Resource Negotiator)

기존 하둡 1.x의 자원 관리 한계를 극복하기 위해 하둡 2.x에서 도입
클러스터의 자원(CPU, 메모리 등)을 여러 애플리케이션 간에 할당 및 조정
주요 구성 요소:
- ResourceManager (RM): 클러스터 자원 총괄 관리 및 스케줄링
- NodeManager (NM): 각 노드에서 자원 상태 모니터링 및 애플리케이션 컨테이너 실행
- ApplicationMaster (AM): 애플리케이션별 작업 관리를 담당

4. 맵리듀스 (MapReduce)

프로그래밍 모델:
- Map 단계: 입력 데이터를 키-값 쌍으로 변환하여 분산 처리
- Shuffle & Sort: 중간 결과를 키 기준으로 정렬 및 그룹핑
- Reduce 단계: 그룹화된 데이터를 집계, 요약하여 최종 결과 생성
실행 과정: MapReduce 작업은 YARN 위에서 컨테이너 단위로 실행됨
빅데이터 분석, 로그 처리, 통계 집계 등에 널리 활용됨

요약

구성요소	역할
Hadoop Common	공통 라이브러리 및 유틸리티 제공
HDFS	데이터 분산 저장 및 내결함성 보장
YARN	클러스터 자원 관리 및 작업 스케줄링
MapReduce	대용량 데이터 병렬 처리 프로그래밍 모델

DevSecOps, Pentest, Cloud(OpenStack), Develop, Data Engineering, AI-Agent

이전 포스트

글로벌 락(Global Lock), 페이지 폴트(Page Fault)

다음 포스트

TF-IDF(Term Frequency – Inverse Document Frequency)

0개의 댓글