# data lake

Transactional Data Lake - (1)
✅ 포스팅 요약 이번 포스팅에서는 데이터 엔지니어링 분야에서 비중 있는 역할을 차지하고 있는 데이터 레이크(Data Lake)와 트랜잭셔널 데이터 레이크(Transactional Data Lake)에 대해 다룰 예정입니다. (갑자기 뭔 트랜잭셔널 데이터 레이크라고 물으신다면... 그냥 제가 트랜잭셔널 데이터 레이크에 관심이 생겨서 입니다.) 데이터 엔지니어링 또는 데이터 분석에 관심이 생기신 분들이 기초 개념을 이해하는데 도움이 되었으면 좋겠습니다. 이번 포스팅에서는 데이터 레이크와 트랜잭셔널 데이터 레이크의 개념 설명이 주를 이룰 것이고, 다음 포스팅에서는 실제로 AWS 서비스를 이용하여 각각의 데이터 레이크를 구축하는 방법에 대해 다룰 예정입니다. 여튼 많관부! > 🚨 목차 데이터 레이크(Data Lake) 소개 데이터 레이크의 한계점 트랜잭셔널 데이터 레이크(Transactional Data Lake) 소개 트랜잭셔널

[AWS] Transactional Data Lake - 1
✅ 포스팅 요약 이번 포스팅에서는 데이터 엔지니어링 분야에서 비중 있는 역할을 차지하고 있는 데이터 레이크(Data Lake)와 트랜잭셔널 데이터 레이크(Transactional Data Lake)에 대해 다룰 예정입니다. 데이터 엔지니어링 또는 데이터 분석에 관심이 생기신 분들이 기초 개념을 이해하는데 도움이 되었으면 좋겠습니다. 이번 포스팅에서는 데이터 레이크와 트랜잭셔널 데이터 레이크의 개념 설명이 주를 이룰 것이고, 다음 포스팅에서는 실제로 AWS 서비스를 이용하여 각각의 데이터 레이크를 구축하는 방법에 대해 다룰 예정입니다. 여튼 많관부! > 🚨 목차 데이터 레이크(Data Lake) 소개 데이터 레이크의 한계점 트랜잭셔널 데이터 레이크(Transactional Data Lake) 소개 트랜잭셔널 데이터 레이크 구축을 위한 핵심 기술 (= Open Table Format) 1️⃣ 데이터 레이크 소개 데

4강. Day 1-3
학습주제 학습내용 데이터 웨어하우스가 작을 땐 프로덕션 DB 이후 클라우드 옵션 사용 ResShift, 빅쿼리 등 장담점에 대해 논의해본다. 클라우드 옵션 고정비용 옵션 (redshift) 가변비용 옵션 (big query, snowflake) 오픈소스는 고정비용에 가깝 고정비용은 비용관리 측면에서 편함. 가변비용은 쓴만큼 냄. 내가 처리하고 싶은 데이터 만큼 비용을 냄. 비용관리가 예측이 안됨. 가변비용 - 스케일러블함 최적화를 부분으로 해주지 않아도, 자동으로 설정됨. 고정비용의 경우 스토리지를 늘리려면 컴퓨팅 성능을 높여야함. 데이터 레이크 
데이터 레이크(Data Lake)
최근 기존 RDBMS 프로그램인 데이터 웨어하우스를 넘어서는 데이터들의 저장과 활용이 요구되는 상황에서 데이터레이크라는 새로운 저장 방식이 각광받고 있다고 하여 찾아본 자료를 정리해보고자 한다. 데이터 레이크(Data Lake)란? 모든 정형, 반정형, 비정형 및 이진 데이터를 순수한 형태로 저장할 수 있는 시스템을 말한다. 한마디로 "무엇이든 저장할 수 있는 중앙 집중식 데이터 저장소" 데이터를 먼제 정제, 구조화할 필요 없이! 그대로 저장한 뒤에, 필요할 때 필요에 맞게 추가적인 정제과정을 거쳐 머신러닝, 실시간 분석, 데이터 보드나 시각화 등을 하는 것이다. 즉 데이터레이크의 존재 이유는 데이터레이크 기반 분석 플랫폼이라고 할 수 있다. Data Lake 최종 목적 머신러닝(Machine Learning) 실시간 분석(real-time assay) 시각화(Visualization) 그렇다면 왜 데이터레이크 기반 분석 플랫폼인가?

Data Warehouse
데이터 웨어하우스란 데이터 웨어하우스(DW): 다양한 소스에서 얻은 대량의 데이터를 연결, 통합하는 디지털 스토리지 시스템 데이터 웨어하우스의 목적: 비즈니스 인텔리전스(BI), 리포팅, 분석을 제공하고 규제 요구사항을 지원해 기업이 데이터를 인사이트로 전환하고 데이터 기반의 스마트한 의사결정을 지원한다. 데이터 웨어하우스는 현재와 과거의 데이터를 한 곳에 저장하며 조직의 단일 데이터 소스의 역할을 한다. 데이터 웨어하우스 vs 데이터레이크 데이터 웨어하우스와 데이터 레이크는 빅데이터를 저장하는 데 사용되지만, 매우 다른 특성을 지닌 스토리지 시스템이다. 데이터 웨어하우스 어느 정도 가치가 있고, 구조화된 데이터들이 모여있는 곳이다. 공간 제약이 있어 필요한

Storage architectures for big data : Data Warehouse Vs Data Lake Vs Data Lakehouse
본 글은 Data Warehouse vs. Data Lake vs. Data Lakehouse: An Overview of Three Cloud Data Storage Patterns 을 번역 및 정리하였습니다. Data Warehouse 와 Data Lake는 빅 데이터에 가장 널리 사용되는 스토리지 아키텍처이다. **Data Lakehouse는 Data Lake 의 유연성과 Data Warehouse의 데이터 관리를 결합한 새로운 데이터 스토리지 아키텍처라고 이해할 수 있다. ** 회사의 요구 사항에 따라 다양한 빅 데이터 스토리지 기술을 이해하는 것은 BI, ML 등 워크로드를 위한 강력한 데이터 스토리지 파이프라인을 개발하는 데 도움이 되므로 본 글에서는 각 3가지 아키텍처에 대해 간단하게 이해하고 비교해보도
Data Lake VS Data Warehouse
이번 포스팅은 Data Lake와 Warehouse의 차이점을 알아보고자 합니다. 1. Data Lake와 Data Warehouse의 정의 그러기에 앞서 일단 Data Lake와 Data Warehouse의 정의를 먼저 알아볼 필요가 있습니다. Data Lake란? > 데이터 레이크는 구조화되거나 반구조화되거나 구조화되지 않은 대량의 데이터를 저장, 처리, 보호하기 위한 중앙 집중식 저장소입니다. 데이터 레이크는 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있습니다. 대용량 데이터는 저장되기 전에 구조화되지 않기 때문에 숙련된 데이터 과학자 또는 end-to-end self-service BI 도구 를 사용하면 데이터 웨어하우스 에서보다 훨씬 빠르게 광범위한 데이터에 액세스 할 수 있습니다. 6가지 주요 이점은 다음과 같습니다. Agility : 사전 계획 없이 쿼리, data models 또는 appli

데이터 레이크
데이터 레이크의 개요 >데이터 레이크는 대규모의 다양한 원시 데이터 세트를 기본 형식으로 저장하는 데이터 리포지토리 유형 즉, 데이터를 원래 형태 그대로 저장하는 것 데이터를 기본 형식으로 저장할 수 있으며, 크기 제한을 무시하고 다양한 데이터 처리가 가능 월별 판매 보고서, 지역별 판매 내역, 웹사이트 트래픽과 같은 비즈니스에서 일반적으로 사용되는 반복적인 보고 및 분석 유형에 적합 데이터 레이크의 필요성 원시 데이터를 변환하지 않은 채 일괄 처리나 스트리밍을 통해 데이터레이크로 이동이 가능 총 소유 비용 절감 데이터 관리 간소화 인공지능 및 머신러닝 통합에 대비 분석 속도 향상 보안 및 거버넌스 향상 데이터 레이크 사용 사례 미

데이터마트(Data Mart), 데이터웨어하우스(Data Warehouse), 데이터 레이크(Data Lake)
데이터베이스를 가르키는 3가지 스타일: Data Mart, Data Warehouse, Data Lake 데이터 소매점(Data Mart), 데이터 도매점(Data Warehouse) 데이터 마트(Data Mart) Data Mart(이하 DM)은 현업에서 데이터를 활용하는 담당자가 데이터를 활용하기 위한 형태 거의 그대로 데이터를 쌓아두는 공간이다. 각 현업에서 사용하는 업무단위 처럼 상세한 단위로 데이터를 저장하고, 사용한다. 데이터 웨어 하우스(Data Warehous) Data Warehouse(이하 DW)는 데이터 소매점(DM)에 공급하게될 데이터를 다양한 원천에서 수집하여 주제별로 저장하는 데이터 도매점과 같은 공간이다. 즉 다양한
자산관리서비스 데이터레이크 구축기 #001
이 문서는 자산관리 서비스에서 데이터레이크를 구축한 경험, 그리고 이를 통해 얻은 결과물과 운영방안에 대한 내용을 담고 있습니다. Background 데이터 수집·유통 기술 주요 연계기술은 ETL(Extract, Translate, Load), EAI(Enterprise Application Integration), ESB(Enterprise Service Bus), API Gateway, iPaas(Integration Platform as a Service) 등 가. ETL 데이터 소스(DB, File 등)에서 데이터를 배치나 비실시간으로 추출하고 조회·분석을 목적으로 적절한 포맷으로 데이터 변환하며 최종대상 매체로 적재하는 도구이다. 대용량 데이터 및 시스템 내부에서 데이터 이동 및 데이터웨어하우스(DW), 운영데이터스토어(ODS), 데이터마 트(DM)에 데이터 적재 시 사용한다 나. EAI 기업 내 상호 연관된 모든 데이터나 애플리케이션을