Bigdata, Platform

Jeonghak Cho·2025년 3월 3일

Bigdata

목록 보기

1/30

Hadoop(하둡)에서 Kubernetes(쿠버네티스)로 전환해야 하나?

기존 온프레미스 환경에서는 여전히 하둡이 많이 사용된다. 하지만 새로운 데이터 파이프라인 구축에서는 쿠버네티스 기반 Spark, Flink, Trino(Presto) 등이 대세이다.
특히, 클라우드 환경에서는 Hadoop 대신 Kubernetes 기반 데이터 처리가 압도적이다.

쿠버네티스로의 전환이 빠르게 진행 중이다. Spark/Flink/Presto 같은 엔진을 쿠버네티스에서 실행하는 것이 새로운 표준으로 자리잡고 있다. 온프레미스에서는 하둡을 유지하는 경우도 있지만, 클라우드에서는 하둡을 대체하는 흐름이 강하다.

전환 방향

Spark on Kubernetes: Databricks, Google, AWS 등에서 적극 지원.
Presto/Trino on Kubernetes: 대용량 데이터 분석에서 널리 활용.
Flink on Kubernetes: 스트리밍 데이터 처리에서 인기.
Airflow on Kubernetes: 데이터 파이프라인 관리 최적화.

전환 이유

컨테이너 기반 아키텍처 선호

하둡은 기본적으로 VM 또는 베어메탈에서 동작하는 모놀리식 구조를 갖고 있지만, 쿠버네티스는 컨테이너 기반이므로 더 유연하고 확장성이 좋음.
Spark, Flink, Presto 등의 데이터 처리 엔진이 쿠버네티스를 공식 지원하면서, 하둡의 MapReduce보다 더 빠른 처리 환경을 제공

HDFS → 클라우드 네이티브 스토리지 전환

기존 하둡의 HDFS는 온프레미스 환경에서 강력했지만, 클라우드에서는 S3, GCS, Ceph 같은 오브젝트 스토리지가 더 효율적.
쿠버네티스를 활용하면 HDFS 없이도 클라우드 네이티브한 방식으로 데이터 저장/처리 가능.
Spark on Kubernetes + S3 조합이 대세.

자원 효율성 향상

하둡의 Yarn 기반 리소스 관리는 고정적인 자원 할당 방식이라 유휴 리소스가 많음.
버네티스는 자동 스케일링(Auto Scaling), 다이나믹 리소스 할당을 지원하여 비용 절감 가능.

배포 및 관리의 용이성

하둡 클러스터는 설치, 업그레이드, 관리가 어렵고, 버전 업그레이드도 까다로움.
쿠버네티스를 사용하면 Helm Chart, Operator를 통해 손쉽게 관리 가능.

ML/AI 및 최신 기술 스택과의 연계

하둡보다는 쿠버네티스 위에서 ML/AI 작업(Spark, Ray, Kubeflow 등)을 수행하는 것이 더 쉽고 효율적.
MLOps와 데이터 파이프라인을 구축할 때 쿠버네티스가 점점 더 표준이 되는 중.

Jeonghak Cho

khagor

다음 포스트