기출 하둡(Hadoop)

agnusdei·2025년 7월 12일

ICT

목록 보기

9/144

문제

빅데이터(Big Data) 처리 분석 기술인 하둡(Hadoop)에 대하여 설명하시오.

답변

1. 개념

하둡(Hadoop): 대용량 데이터를 분산 저장·처리하는 자바 기반 오픈소스 프레임워크.
(Hadoop: High-Availability Distributed Object-Oriented Platform)

2. 역할 & 목적

대용량 데이터(페타바이트급) 효율적 처리
분산 컴퓨팅 및 병렬 처리 지원
장애 허용성(내결함성) 제공
비용 효율적(상용 하드웨어 활용)
데이터 분석 인프라 제공

3. 역사적 배경

2002년: 너치(Nutch) 프로젝트에서 시작
2004년: 구글 GFS/MapReduce 논문 영향
2006년: 야후, 더그 커팅이 하둡 독립 프로젝트화
2008년: 아파치 최상위 프로젝트 승격
2011년: 하둡 1.0 출시
2013년: 하둡 2.0(YARN 도입)
2017년: 하둡 3.0(컨테이너화 등)

4. 구조 및 구성요소

구성요소	약어	설명
하둡 분산 파일 시스템	HDFS (Hadoop Distributed File System)	대용량 파일 분산 저장, 복제
리소스 관리자	YARN (Yet Another Resource Negotiator)	클러스터 자원 관리, 작업 스케줄링
맵리듀스	MapReduce	분산 데이터 처리 프로그래밍 모델
공통 모듈	Common	에코시스템 공통 유틸리티

확장 에코시스템

Hive(SQL 기반), HBase(NoSQL), Pig(스크립트), Spark(고속 처리), ZooKeeper(조정), Oozie(워크플로우), Flume(로그 수집), Sqoop(데이터 이동)

5. 원리

HDFS: 파일을 블록(128MB) 단위로 분산 저장, NameNode(메타데이터), DataNode(실데이터), 복제(기본 3개)
MapReduce: 입력 분할→맵→셔플→정렬→리듀스→출력
YARN: ResourceManager(전체 자원), NodeManager(개별 노드), ApplicationMaster(작업 관리), Container(자원 단위)

6. 종류

분류	설명
아파치 하둡	원본 오픈소스
클라우데라 CDH	엔터프라이즈 지원
호튼웍스 HDP	오픈소스 중심
맵알(MapR)	고성능 특화
아마존 EMR	AWS 클라우드
MS HDInsight	Azure 클라우드
하둡 1.x	HDFS+MapReduce
하둡 2.x	YARN 도입
하둡 3.x	컨테이너, 에라슈어 코딩 등

7. 핵심 용어 요약

용어	설명
NameNode	HDFS 메타데이터 관리
DataNode	데이터 블록 저장
ResourceManager	YARN 자원 관리
NodeManager	YARN 노드 관리
Block	HDFS 저장 단위(128MB)
Replication	데이터 복제
JobTracker	하둡 1.x 작업 관리
TaskTracker	하둡 1.x 작업 실행
Secondary NameNode	체크포인트 생성

8. 특징

장점

높은 확장성, 비용 효율성, 유연성, 내결함성, 생태계 다양성

단점

복잡한 관리, 소규모 데이터 비효율, 실시간 처리 제약, 높은 메모리 요구, 스트리밍 한계

9. 비교

기술	특징	장점	단점	적합 사례
하둡	분산 파일+배치	대용량, 비용 효율	실시간 제약	배치 분석
스파크	인메모리	빠름, 다양한 API	메모리 요구	ML, 반복
플링크	스트림	실시간, 저지연	생태계 작음	이벤트 처리
스톰	스트리밍	낮은 지연	처리량 제약	실시간 분석
카산드라	NoSQL	고가용성, 확장	쿼리 제약	분산 저장

10. 최신 트렌드

클라우드 네이티브, 컨테이너화, 통합 데이터 플랫폼, 실시간 처리 강화, 보안·거버넌스, 자동화·서버리스, AI/ML 통합

11. 어린이 버전 요약

하둡은 아주 큰 데이터를 여러 컴퓨터에 나눠서 저장하고 처리하는 프로그램이에요. 친구들과 퍼즐을 나눠 맞추듯, 하둡은 여러 컴퓨터가 힘을 합쳐 데이터를 빠르게 분석해요. 한 컴퓨터가 고장 나도 데이터가 안전하게 보관돼요.

12. 한 눈에 보는 요약 표

구분	내용
정의	대용량 데이터 분산 저장·처리 오픈소스
핵심	HDFS, YARN, MapReduce, Common
아키텍처	마스터-슬레이브 구조
저장 방식	블록 단위 분산, 복제
처리 모델	배치 중심
확장성	수천 노드까지 확장
장애 허용	복제·재시도 메커니즘
사용 사례	웨어하우징, 로그 분석, 추천, ETL
에코시스템	Hive, HBase, Pig, Spark 등
사용 기업	야후, 페이스북, 트위터 등
최신 버전	3.3.x (2023년 기준)

DevSecOps, Pentest, Cloud(OpenStack), Develop, Data Engineering, AI-Agent

이전 포스트

빅데이터 참조 아키텍처(Big Data Reference Architecture)란 무엇인가?

다음 포스트

기출 복잡 이벤트 처리(CEP, Complex Event Processing)

0개의 댓글