문제
빅데이터(Big Data) 처리 분석 기술인 하둡(Hadoop)에 대하여 설명하시오.
답변
1. 개념
- 하둡(Hadoop): 대용량 데이터를 분산 저장·처리하는 자바 기반 오픈소스 프레임워크.
(Hadoop: High-Availability Distributed Object-Oriented Platform)
2. 역할 & 목적
- 대용량 데이터(페타바이트급) 효율적 처리
- 분산 컴퓨팅 및 병렬 처리 지원
- 장애 허용성(내결함성) 제공
- 비용 효율적(상용 하드웨어 활용)
- 데이터 분석 인프라 제공
3. 역사적 배경
- 2002년: 너치(Nutch) 프로젝트에서 시작
- 2004년: 구글 GFS/MapReduce 논문 영향
- 2006년: 야후, 더그 커팅이 하둡 독립 프로젝트화
- 2008년: 아파치 최상위 프로젝트 승격
- 2011년: 하둡 1.0 출시
- 2013년: 하둡 2.0(YARN 도입)
- 2017년: 하둡 3.0(컨테이너화 등)
4. 구조 및 구성요소
구성요소 | 약어 | 설명 |
---|
하둡 분산 파일 시스템 | HDFS (Hadoop Distributed File System) | 대용량 파일 분산 저장, 복제 |
리소스 관리자 | YARN (Yet Another Resource Negotiator) | 클러스터 자원 관리, 작업 스케줄링 |
맵리듀스 | MapReduce | 분산 데이터 처리 프로그래밍 모델 |
공통 모듈 | Common | 에코시스템 공통 유틸리티 |
확장 에코시스템
- Hive(SQL 기반), HBase(NoSQL), Pig(스크립트), Spark(고속 처리), ZooKeeper(조정), Oozie(워크플로우), Flume(로그 수집), Sqoop(데이터 이동)
5. 원리
- HDFS: 파일을 블록(128MB) 단위로 분산 저장, NameNode(메타데이터), DataNode(실데이터), 복제(기본 3개)
- MapReduce: 입력 분할→맵→셔플→정렬→리듀스→출력
- YARN: ResourceManager(전체 자원), NodeManager(개별 노드), ApplicationMaster(작업 관리), Container(자원 단위)
6. 종류
분류 | 설명 |
---|
아파치 하둡 | 원본 오픈소스 |
클라우데라 CDH | 엔터프라이즈 지원 |
호튼웍스 HDP | 오픈소스 중심 |
맵알(MapR) | 고성능 특화 |
아마존 EMR | AWS 클라우드 |
MS HDInsight | Azure 클라우드 |
하둡 1.x | HDFS+MapReduce |
하둡 2.x | YARN 도입 |
하둡 3.x | 컨테이너, 에라슈어 코딩 등 |
7. 핵심 용어 요약
용어 | 설명 |
---|
NameNode | HDFS 메타데이터 관리 |
DataNode | 데이터 블록 저장 |
ResourceManager | YARN 자원 관리 |
NodeManager | YARN 노드 관리 |
Block | HDFS 저장 단위(128MB) |
Replication | 데이터 복제 |
JobTracker | 하둡 1.x 작업 관리 |
TaskTracker | 하둡 1.x 작업 실행 |
Secondary NameNode | 체크포인트 생성 |
8. 특징
장점
- 높은 확장성, 비용 효율성, 유연성, 내결함성, 생태계 다양성
단점
- 복잡한 관리, 소규모 데이터 비효율, 실시간 처리 제약, 높은 메모리 요구, 스트리밍 한계
9. 비교
기술 | 특징 | 장점 | 단점 | 적합 사례 |
---|
하둡 | 분산 파일+배치 | 대용량, 비용 효율 | 실시간 제약 | 배치 분석 |
스파크 | 인메모리 | 빠름, 다양한 API | 메모리 요구 | ML, 반복 |
플링크 | 스트림 | 실시간, 저지연 | 생태계 작음 | 이벤트 처리 |
스톰 | 스트리밍 | 낮은 지연 | 처리량 제약 | 실시간 분석 |
카산드라 | NoSQL | 고가용성, 확장 | 쿼리 제약 | 분산 저장 |
10. 최신 트렌드
- 클라우드 네이티브, 컨테이너화, 통합 데이터 플랫폼, 실시간 처리 강화, 보안·거버넌스, 자동화·서버리스, AI/ML 통합
11. 어린이 버전 요약
- 하둡은 아주 큰 데이터를 여러 컴퓨터에 나눠서 저장하고 처리하는 프로그램이에요. 친구들과 퍼즐을 나눠 맞추듯, 하둡은 여러 컴퓨터가 힘을 합쳐 데이터를 빠르게 분석해요. 한 컴퓨터가 고장 나도 데이터가 안전하게 보관돼요.
12. 한 눈에 보는 요약 표
구분 | 내용 |
---|
정의 | 대용량 데이터 분산 저장·처리 오픈소스 |
핵심 | HDFS, YARN, MapReduce, Common |
아키텍처 | 마스터-슬레이브 구조 |
저장 방식 | 블록 단위 분산, 복제 |
처리 모델 | 배치 중심 |
확장성 | 수천 노드까지 확장 |
장애 허용 | 복제·재시도 메커니즘 |
사용 사례 | 웨어하우징, 로그 분석, 추천, ETL |
에코시스템 | Hive, HBase, Pig, Spark 등 |
사용 기업 | 야후, 페이스북, 트위터 등 |
최신 버전 | 3.3.x (2023년 기준) |