각 아키텍처의 주요 특징과 차이점데이터 레이크:모든 형태의 데이터를 원시 형태로 저장유연한 스키마 구조주로 데이터 과학자들이 사용예: Amazon S3, Azure Data Lake Storage데이터 웨어하우스:ETL을 통한 정제된 데이터 저장엄격한 스키마 구조BI
전체 하둡 에코시스템 기반의 데이터 파이프라인데이터 생성 (Producer)전국 POS 단말기에서 실시간 거래 데이터 발생초당 평균 1,000건의 거래 데이터 생성JSON 형태로 데이터 전송메시지 큐잉 (Kafka)Topic: store_transactionsParti
동일한 버킷팅 키로 생성된 테이블 간 조인 최적화예시 상황: 사용자(users)와 주문(orders) 데이터를 조인데이터 예시:최적화 효과:동일한 버킷끼리만 조인하면 됨 (버킷 0과 버킷 0, 버킷 1과 버킷 1...)데이터 셔플링 감소네트워크 트래픽 감소데이터 스큐(