수집 | Kafka(카프카) | 분산 스트리밍 플랫폼, 대용량 실시간 데이터 처리, 내결함성, 확장성 우수 |
| Flume(플룸) | 로그/이벤트 데이터 수집, 스트리밍 데이터 파이프라인 구축에 최적화 |
| Sqoop(스쿱) | RDBMS와 하둡(Hadoop) 간 대용량 데이터 전송 자동화 |
| Logstash(로그스태시) | 다양한 소스의 로그 수집·변환, ELK 스택 연동에 강점 |
공유 | API(응용프로그램 인터페이스) | 표준화된 데이터 접근, 시스템 간 연동, 실시간 데이터 제공 |
| Data Catalog(데이터 카탈로그) | 메타데이터 관리, 데이터 검색·분류·품질 관리 지원 |
| Data Virtualization(데이터 가상화) | 물리적 위치와 무관하게 데이터 통합 제공 |
저장·관리 | HDFS(하둡 분산 파일 시스템) | 대용량 파일 분산 저장, 장애 복구, 확장성 우수 |
| NoSQL DB(비관계형 DB) | 유연한 스키마, 수평 확장, 다양한 데이터 유형 지원(Redis, MongoDB 등) |
| Data Lake(데이터 레이크) | 원시 데이터 저장, 정형·비정형 데이터 모두 수용 |
| DW(데이터 웨어하우스) | 구조화 데이터 저장, 분석 최적화, ETL 기반 |
처리 | Spark(스파크) | 인메모리 분산 처리, 실시간·배치 모두 지원, 빠른 속도 |
| MapReduce(맵리듀스) | 분산 병렬 처리 모델, 대용량 배치 처리에 강점 |
| Flink(플링크) | 실시간 스트림·배치 통합 처리, 이벤트 기반 분석 |
| ETL(추출·변환·적재) | 데이터 정제·변환·적재 자동화, DW/분석 준비 |
분석 | ML(기계학습) | 데이터 기반 예측·분류·군집화, scikit-learn 등 활용 |
| DL(딥러닝) | 신경망 기반 고차원 데이터 분석, TensorFlow 등 활용 |
| R, Python(파이썬) | 통계·수치분석, 데이터 과학 라이브러리 풍부 |
| BI(비즈니스 인텔리전스) | 시각적 분석, 대시보드, 의사결정 지원 |
시각화 | Tableau(태블로) | 대화형 시각화, 드래그앤드롭, 다양한 데이터 소스 지원 |
| Power BI(파워 BI) | MS 생태계 연동, 실시간 대시보드, 협업 기능 |
| D3.js | 웹 기반 맞춤형 시각화, 인터랙티브 그래프 |
| Kibana(키바나) | 로그·시계열 데이터 시각화, ELK 스택 연동 |