전체 하둡 에코시스템 기반의 데이터 파이프라인
데이터 생성 (Producer)
메시지 큐잉 (Kafka)
실시간 처리 (Spark Streaming)
저장소 (HDFS)
/retail/raw/yyyy/mm/dd/HH/
/retail/processed/yyyy/mm/dd/
데이터 웨어하우스 (Hive)
분석 도구 연동
GCP와 비교
하둡 에코시스템과 이 GCP(Google Cloud Platform) 기반 워크플로우를 비교:
메시지 수집 단계 비교
[GCP] Pub/Sub : 완전 관리형 메시징 서비스
[Hadoop] Kafka : 자체 관리 메시징 시스템
데이터 저장 단계 비교
[GCP] GCS : 클라우드 스토리지
[Hadoop] HDFS : 분산 파일 시스템
예시: 일일 100GB 데이터 저장 시
데이터 처리 단계 비교
[GCP] Dataflow : 관리형 Apache Beam
[Hadoop] Spark : 분산 처리 엔진
예시: 시간당 100만건 처리 시
데이터 웨어하우스 비교
[GCP] BigQuery : 서버리스 DW
[Hadoop] Hive : 데이터 웨어하우스
예시: 일일 리포트 생성 시
주요 차이점:
1. 관리 방식
비용 구조
확장성
개발 복잡도
[GCP 예시 코드]
# Python Pub/Sub
publish_client.publish(topic_path, data)
[Hadoop 예시 코드]
# Kafka Producer
producer.send(topic, key, value)
producer.flush()
모니터링/운영
결론적으로:
선택 기준:
1. 운영 인력이 부족하면 → GCP
2. 비용 최적화가 중요하면 → Hadoop
3. 빠른 구축이 필요하면 → GCP
4. 상세한 커스터마이징이 필요하면 → Hadoop