📗 레이크 하우스 방향성
🏳️🌈 [궁금한점]
🔗목차
| 기술 | 기능 | 시장 현황 | 도입이 늦어지는 이유 |
|---|---|---|---|
| Apache Flink | 스트리밍/데이터 레이크 스탠다드 | 최근 대기업만 시범 적용 시작 | Spark에 익숙 + 실시간에 대한 보수적 투자 |
| Apache Iceberg | 클라우드 데이터 레이크 핵심 포맷 | 관심 급증, 본격 적용은 초입 | Hive, ORC에 묶여있던 유산 |
| dbt (data build tool) | 데이터 변환/ETL 새 표준 | 거의 인지도 없음 | 기존 ETL 도구, SQL개발자 문화 |
| Apache Pulsar | Kafka 대체(멀티 테넌시 MQ) | 거의 없음 | Kafka 지배적, 학습 비용 부담 |
| Data Mesh 아키텍처 | 분산 데이터 소유/운영 모델 | 일부 대기업에서 개념만 논의 | 강한 중앙 통제 문화, 데이터 소유권 문제 |
| Serverless Analytics (ex. Athena, BigQuery) | 대세, infra없이 쿼리만 | 제한적 사용 (거의 실험적) | 온프레미스 선호, 과금/비용 우려 |
| Feature Store (ex. Feast, Tecton) | 머신러닝 실시간 피쳐 관리 | 극소수 도입 (AI팀 극소수) | MLops 자체가 느린 상태 |
| 추세 | 설명 | 방향성 |
|---|---|---|
| 데이터 레이크하우스 전환 | Hadoop → Iceberg/Delta 기반 구조로 재구축 | Hadoop, Hive 끝물 / BI+ML 겸용 아키텍처 수요 |
| 스트리밍 퍼스트 시대 개막 | Kafka → Flink 조합 급증 | 실시간 의사결정 수요 급증 (ex. 실시간 추천, 금융 이상탐지) |
| dbt 확산 | dbt-core, dbt-cloud 도입 늘어남 | 데이터 엔지니어 → 데이터 모델러 직무 이탈 대비 |
| 클라우드 네이티브 전환 가속 | Spark-on-K8s, Flink-on-K8s, S3 기반 스토리지 확산 | 온프레미스는 너무 느리고, 유연성이 부족 |
| Iceberg vs Delta Lake 대결 | Iceberg가 유리 (open source + 벤더중립성) | AWS, GCP, Azure 모두 Iceberg 공식지원 중 |
| Feature Store/ML Feature Engineering 확장 | Feast, Tecton 같은 실시간 피쳐 스토어 등장 | ML 서비스 실제 운영 요구 증가 |
Kafka와 Flink는 "Exactly once" 흐름을 알아야 한다. Iceberg는 버전 관리형 테이블 포맷이라는 걸 이해하는 게 핵심이다. dbt는 ETL이 아니라 ELT라는 감각을 체득해야 한다.
| 기술 | 학습 목표 | 필요한 기간 |
|---|---|---|
| Kafka | 메시지 큐 개념, partition/offset 구조, Exactly-once, Retention 이해 | 2주 |
| Flink | 스트리밍 vs 배치 차이, Checkpoint/State/Windowing, Watermark 개념 익히기 | 3주 |
| Iceberg | 테이블 포맷 구조, Snapshot/Time travel/Partition spec 이해 | 2주 |
| dbt | 모델링(SQL), DAG 관리, seed/test/documentation 기능 이해 | 1주 |
"Event Time 처리" 에 집중한다. 스트리밍은 Event Time 관리가 핵심이다. Iceberg에서는 "Schema Evolution" (컬럼 추가/삭제 실습)를 꼭 해보아야 한다.
튜닝/운영까지 해본다. 특히 Flink checkpoint 실패 처리/모니터링은 필수이다.
| 주제 | 실습 항목 |
|---|---|
| Kafka | Partition tuning, Consumer lag 모니터링 |
| Flink | Checkpoint 튜닝, Savepoint 활용, Flink SQL Table API 사용 |
| Iceberg | Snapshot Expire/Compaction 전략, Metadata 관리 |
| dbt | dbt Cloud 연동, CI/CD 파이프라인 구축 |