Bigdata, Lakehouse / 방향성

Jeonghak Cho·2025년 4월 27일

Bigdata

목록 보기
22/30

📗 레이크 하우스 방향성

🏳️‍🌈 [궁금한점]

  • 레이크 하우스 도입을 위해 뭘 준비해야 할까

🔗목차

시장 현황

기술기능시장 현황도입이 늦어지는 이유
Apache Flink스트리밍/데이터 레이크 스탠다드최근 대기업만 시범 적용 시작Spark에 익숙 + 실시간에 대한 보수적 투자
Apache Iceberg클라우드 데이터 레이크 핵심 포맷관심 급증, 본격 적용은 초입Hive, ORC에 묶여있던 유산
dbt (data build tool)데이터 변환/ETL 새 표준거의 인지도 없음기존 ETL 도구, SQL개발자 문화
Apache PulsarKafka 대체(멀티 테넌시 MQ)거의 없음Kafka 지배적, 학습 비용 부담
Data Mesh 아키텍처분산 데이터 소유/운영 모델일부 대기업에서 개념만 논의강한 중앙 통제 문화, 데이터 소유권 문제
Serverless Analytics (ex. Athena, BigQuery)대세, infra없이 쿼리만제한적 사용 (거의 실험적)온프레미스 선호, 과금/비용 우려
Feature Store (ex. Feast, Tecton)머신러닝 실시간 피쳐 관리극소수 도입 (AI팀 극소수)MLops 자체가 느린 상태

방향성 확립

추세설명방향성
데이터 레이크하우스 전환Hadoop → Iceberg/Delta 기반 구조로 재구축Hadoop, Hive 끝물 / BI+ML 겸용 아키텍처 수요
스트리밍 퍼스트 시대 개막Kafka → Flink 조합 급증실시간 의사결정 수요 급증 (ex. 실시간 추천, 금융 이상탐지)
dbt 확산dbt-core, dbt-cloud 도입 늘어남데이터 엔지니어 → 데이터 모델러 직무 이탈 대비
클라우드 네이티브 전환 가속Spark-on-K8s, Flink-on-K8s, S3 기반 스토리지 확산온프레미스는 너무 느리고, 유연성이 부족
Iceberg vs Delta Lake 대결Iceberg가 유리 (open source + 벤더중립성)AWS, GCP, Azure 모두 Iceberg 공식지원 중
Feature Store/ML Feature Engineering 확장Feast, Tecton 같은 실시간 피쳐 스토어 등장ML 서비스 실제 운영 요구 증가

도입 방법

필수 개념 다지기

Kafka와 Flink는 "Exactly once" 흐름을 알아야 한다. Iceberg는 버전 관리형 테이블 포맷이라는 걸 이해하는 게 핵심이다. dbt는 ETL이 아니라 ELT라는 감각을 체득해야 한다.

기술학습 목표필요한 기간
Kafka메시지 큐 개념, partition/offset 구조, Exactly-once, Retention 이해2주
Flink스트리밍 vs 배치 차이, Checkpoint/State/Windowing, Watermark 개념 익히기3주
Iceberg테이블 포맷 구조, Snapshot/Time travel/Partition spec 이해2주
dbt모델링(SQL), DAG 관리, seed/test/documentation 기능 이해1주

POC 진행

"Event Time 처리" 에 집중한다. 스트리밍은 Event Time 관리가 핵심이다. Iceberg에서는 "Schema Evolution" (컬럼 추가/삭제 실습)를 꼭 해보아야 한다.

  • 주제 : Kafka → Flink → Iceberg 저장 → dbt로 가공 → Trino로 BI 쿼리
  • Kafka Producer 만들기 (가짜 실시간 데이터 생성)
  • Flink Job 만들기 (Kafka 읽고 집계 후 Iceberg에 저장)
  • Iceberg 테이블 설계 (Partition, Schema Evolution 적용)
  • dbt 프로젝트 구성해서 Iceberg 테이블 변환 작업 DAG로 관리
  • Trino/Presto 연결해서 결과 조회

실전 최적화/운영

튜닝/운영까지 해본다. 특히 Flink checkpoint 실패 처리/모니터링은 필수이다.

주제실습 항목
KafkaPartition tuning, Consumer lag 모니터링
FlinkCheckpoint 튜닝, Savepoint 활용, Flink SQL Table API 사용
IcebergSnapshot Expire/Compaction 전략, Metadata 관리
dbtdbt Cloud 연동, CI/CD 파이프라인 구축

0개의 댓글