🔹 0. INTRO 이전 글 'Google Cloud Pub/Sub 서비스의 핵심 개념과 실습 튜토리얼'에서는 Pub/Sub 서비스의 기초적인 내용을 살펴보았습니다. 이번 글에서는 Pub/Sub 토픽으로 전송된 메시지를 읽어 BigQuery 테이블에 직접 저장하는 방법을 다뤄보겠습니다. 🔹 1. BigQuery 테이블 생성 ▪ 1) 단일 스키마 토픽...
GCP PubSub 서비스에 대한 개념 및 python을 통한 실습 튜토리얼!
DuckLake에 대한 간략한 설명 및 Python을 통해 DuckLake 환경 세팅하는 방법을 차근차근 알려드립니다!
Airflow의 XCom ObjectStorage Backend 설정하는 방법에 대하여 (AWS S3, Google Cloud Storage)
airflow Task의 선행, 후행 작업을 설정할 수 있는 setup과 teardown에 대한 이해!
GCS에 일정 간격으로 업로드되는 데이터를 BigQuery로 증분 처리하여 조회해보자!
🔹 0. INTRO 앞선 글(BigQuery Dataform으로 빅쿼리 데이터 플로우 자동화하기!)에서는 BigQuery에서 제공해주는 Dataform 이라는 서비스에 대해 알아보고 간단한 실습까지 진행해 보았습니다. 빅쿼리 데이터를 기반으로 자동화된 파이프라인을 만들어준다는 것 외에도 Dataform에는 매력적인 기능들이 많이 있는데요, 대표적인 것이 ...
🌊 Delta Lake 입문자를 위한 가이드 실전편! Part2! delta-spark 라이브러리 사용법 총 정리!!
(해당 글은 아래 명시한 출처의 글을 한글로 각색 및 요약한 내용입니다.)🔥 최상위 데이터 엔지니어들의 공통점이들은 데이터를 단순한 값이 아니라, 흐름(flow) 으로 봅니다.분산 시스템(HDFS, S3), 배치 vs. 스트림 처리 차이를 직관적으로 이해함.저장 포맷
0. Delta Lake란 무엇인가? 1. Delta Lake가 등장한 배경 2. Delta Lake의 핵심 설계 원리 3. Delta Lake의 핵심 기능 4. 기존 DL&DW 와의 비교
(해당 글은 아래 명시한 출처의 글을 한글로 각색 및 요약한 내용입니다.) ❗데이터 엔지니어링의 현실, 화려함 뒤에 숨겨진 10가지 뼈 때리는 진실🤕 대용량 데이터, 최첨단 기술, 실시간 분석, 멋진 대시보드…... 데이터 엔지니어링에 대한 이야기는 늘 화려하죠.
notion-database 라이브러리를 활용하여 노션의 데이터베이스를 python으로 자유자재로 다뤄봅시다!
Docker의 Bridge, Host, None 네트워크에 대하여 알아보고 실습까지 진행해봅시다!
Docker Compose로 구축된 Airflow 시스템에 외부 패키지 추가 설치하기!
0. INTRO 대규모 데이터를 클라우드 객체 저장소에 보관한 뒤 Spark를 활용해 분석하는 방식은 이제 데이터 분석의 대표적인 사례로 자리 잡았습니다. 특히, 클라우드 서비스 환경에서는 Spark와 객체 저장소 간의 통합이 이미 기본적으로 설정된 경우가 많아, 별다른 추가 설정 없이 바로 사용할 수 있는 편리함이 있습니다. 그러나 로컬 환경에서 Spar...