빅데이터(Big Data) 처리 분석 기술인 하둡(Hadoop)에 대하여 설명하시오.
| 구성요소 | 약어 | 설명 |
|---|---|---|
| 하둡 분산 파일 시스템 | HDFS (Hadoop Distributed File System) | 대용량 파일 분산 저장, 복제 |
| 리소스 관리자 | YARN (Yet Another Resource Negotiator) | 클러스터 자원 관리, 작업 스케줄링 |
| 맵리듀스 | MapReduce | 분산 데이터 처리 프로그래밍 모델 |
| 공통 모듈 | Common | 에코시스템 공통 유틸리티 |
| 분류 | 설명 |
|---|---|
| 아파치 하둡 | 원본 오픈소스 |
| 클라우데라 CDH | 엔터프라이즈 지원 |
| 호튼웍스 HDP | 오픈소스 중심 |
| 맵알(MapR) | 고성능 특화 |
| 아마존 EMR | AWS 클라우드 |
| MS HDInsight | Azure 클라우드 |
| 하둡 1.x | HDFS+MapReduce |
| 하둡 2.x | YARN 도입 |
| 하둡 3.x | 컨테이너, 에라슈어 코딩 등 |
| 용어 | 설명 |
|---|---|
| NameNode | HDFS 메타데이터 관리 |
| DataNode | 데이터 블록 저장 |
| ResourceManager | YARN 자원 관리 |
| NodeManager | YARN 노드 관리 |
| Block | HDFS 저장 단위(128MB) |
| Replication | 데이터 복제 |
| JobTracker | 하둡 1.x 작업 관리 |
| TaskTracker | 하둡 1.x 작업 실행 |
| Secondary NameNode | 체크포인트 생성 |
| 기술 | 특징 | 장점 | 단점 | 적합 사례 |
|---|---|---|---|---|
| 하둡 | 분산 파일+배치 | 대용량, 비용 효율 | 실시간 제약 | 배치 분석 |
| 스파크 | 인메모리 | 빠름, 다양한 API | 메모리 요구 | ML, 반복 |
| 플링크 | 스트림 | 실시간, 저지연 | 생태계 작음 | 이벤트 처리 |
| 스톰 | 스트리밍 | 낮은 지연 | 처리량 제약 | 실시간 분석 |
| 카산드라 | NoSQL | 고가용성, 확장 | 쿼리 제약 | 분산 저장 |
| 구분 | 내용 |
|---|---|
| 정의 | 대용량 데이터 분산 저장·처리 오픈소스 |
| 핵심 | HDFS, YARN, MapReduce, Common |
| 아키텍처 | 마스터-슬레이브 구조 |
| 저장 방식 | 블록 단위 분산, 복제 |
| 처리 모델 | 배치 중심 |
| 확장성 | 수천 노드까지 확장 |
| 장애 허용 | 복제·재시도 메커니즘 |
| 사용 사례 | 웨어하우징, 로그 분석, 추천, ETL |
| 에코시스템 | Hive, HBase, Pig, Spark 등 |
| 사용 기업 | 야후, 페이스북, 트위터 등 |
| 최신 버전 | 3.3.x (2023년 기준) |