기출 하둡(Hadoop)

agnusdei·2025년 7월 12일
0

ICT

목록 보기
9/143

문제

빅데이터(Big Data) 처리 분석 기술인 하둡(Hadoop)에 대하여 설명하시오.


답변

1. 개념

  • 하둡(Hadoop): 대용량 데이터를 분산 저장·처리하는 자바 기반 오픈소스 프레임워크.
    (Hadoop: High-Availability Distributed Object-Oriented Platform)

2. 역할 & 목적

  • 대용량 데이터(페타바이트급) 효율적 처리
  • 분산 컴퓨팅 및 병렬 처리 지원
  • 장애 허용성(내결함성) 제공
  • 비용 효율적(상용 하드웨어 활용)
  • 데이터 분석 인프라 제공

3. 역사적 배경

  • 2002년: 너치(Nutch) 프로젝트에서 시작
  • 2004년: 구글 GFS/MapReduce 논문 영향
  • 2006년: 야후, 더그 커팅이 하둡 독립 프로젝트화
  • 2008년: 아파치 최상위 프로젝트 승격
  • 2011년: 하둡 1.0 출시
  • 2013년: 하둡 2.0(YARN 도입)
  • 2017년: 하둡 3.0(컨테이너화 등)

4. 구조 및 구성요소

구성요소약어설명
하둡 분산 파일 시스템HDFS (Hadoop Distributed File System)대용량 파일 분산 저장, 복제
리소스 관리자YARN (Yet Another Resource Negotiator)클러스터 자원 관리, 작업 스케줄링
맵리듀스MapReduce분산 데이터 처리 프로그래밍 모델
공통 모듈Common에코시스템 공통 유틸리티

확장 에코시스템

  • Hive(SQL 기반), HBase(NoSQL), Pig(스크립트), Spark(고속 처리), ZooKeeper(조정), Oozie(워크플로우), Flume(로그 수집), Sqoop(데이터 이동)

5. 원리

  • HDFS: 파일을 블록(128MB) 단위로 분산 저장, NameNode(메타데이터), DataNode(실데이터), 복제(기본 3개)
  • MapReduce: 입력 분할→맵→셔플→정렬→리듀스→출력
  • YARN: ResourceManager(전체 자원), NodeManager(개별 노드), ApplicationMaster(작업 관리), Container(자원 단위)

6. 종류

분류설명
아파치 하둡원본 오픈소스
클라우데라 CDH엔터프라이즈 지원
호튼웍스 HDP오픈소스 중심
맵알(MapR)고성능 특화
아마존 EMRAWS 클라우드
MS HDInsightAzure 클라우드
하둡 1.xHDFS+MapReduce
하둡 2.xYARN 도입
하둡 3.x컨테이너, 에라슈어 코딩 등

7. 핵심 용어 요약

용어설명
NameNodeHDFS 메타데이터 관리
DataNode데이터 블록 저장
ResourceManagerYARN 자원 관리
NodeManagerYARN 노드 관리
BlockHDFS 저장 단위(128MB)
Replication데이터 복제
JobTracker하둡 1.x 작업 관리
TaskTracker하둡 1.x 작업 실행
Secondary NameNode체크포인트 생성

8. 특징

장점

  • 높은 확장성, 비용 효율성, 유연성, 내결함성, 생태계 다양성

단점

  • 복잡한 관리, 소규모 데이터 비효율, 실시간 처리 제약, 높은 메모리 요구, 스트리밍 한계

9. 비교

기술특징장점단점적합 사례
하둡분산 파일+배치대용량, 비용 효율실시간 제약배치 분석
스파크인메모리빠름, 다양한 API메모리 요구ML, 반복
플링크스트림실시간, 저지연생태계 작음이벤트 처리
스톰스트리밍낮은 지연처리량 제약실시간 분석
카산드라NoSQL고가용성, 확장쿼리 제약분산 저장

10. 최신 트렌드

  • 클라우드 네이티브, 컨테이너화, 통합 데이터 플랫폼, 실시간 처리 강화, 보안·거버넌스, 자동화·서버리스, AI/ML 통합

11. 어린이 버전 요약

  • 하둡은 아주 큰 데이터를 여러 컴퓨터에 나눠서 저장하고 처리하는 프로그램이에요. 친구들과 퍼즐을 나눠 맞추듯, 하둡은 여러 컴퓨터가 힘을 합쳐 데이터를 빠르게 분석해요. 한 컴퓨터가 고장 나도 데이터가 안전하게 보관돼요.

12. 한 눈에 보는 요약 표

구분내용
정의대용량 데이터 분산 저장·처리 오픈소스
핵심HDFS, YARN, MapReduce, Common
아키텍처마스터-슬레이브 구조
저장 방식블록 단위 분산, 복제
처리 모델배치 중심
확장성수천 노드까지 확장
장애 허용복제·재시도 메커니즘
사용 사례웨어하우징, 로그 분석, 추천, ETL
에코시스템Hive, HBase, Pig, Spark 등
사용 기업야후, 페이스북, 트위터 등
최신 버전3.3.x (2023년 기준)

profile
DevSecOps ⚙️ + CTF🚩

0개의 댓글