
데이터가 쏟아지는 요즘, “어떻게 다 모으고, 어떻게 잘 써먹을까?” 하는 고민이 많다.이에, Kafka랑 Spark를 활용해서 실시간 데이터레이크(Realtime Datalake)를 어떻게 구성하는지 정리해본다.정형 데이터(엑셀, RDB 테이블)반정형 데이터(JSON

일배치, 주배치, 월배치와 같은 배치 수집 이 실시간 수집이 필요한 경우는 대표적으로 람다(Lamda)아키텍처와 카파(Kappa)아키텍처를 참조하면 좋다.마스터 정보를 배치 뷰에 제공하기 위해 데이터 전처리 수행 및 정제 데이터 보관하는 영역ex)고객 마스터 테이블,제