Delta lake Introduction

유상기·2023년 2월 21일
0

Delta Lake

목록 보기
2/16
post-thumbnail

Introduction

본 글은 Delta Lake 2.2.0 Introduction 을 번역 및 정리하였습니다.

Delta Lake는 데이터 레이크 위에 Lakehouse 구조를 구축할 수 있도록 하는 오픈 소스 프로젝트입니다.

Delta Lake는 ACID 트랜잭션, 확장 가능한 메타데이터 처리, 기존 데이터 레이크(S3, ADLS, GCS,

HDFS) 위에서 스트리밍과 배치 데이터 처리를 통합합니다.”

Delta Lake는 다음과 같은 기능을 제공합니다:

  • Spark에서의 ACID 트랜잭션: 직렬화 격리 수준이 읽어드리는 사람들이 불안정한 데이터를 볼 일이 없도록 보장합니다.
  • 확장 가능한 메타데이터 처리: 수천 개의 파일을 가진 PB 규모의 테이블의 메타데이터를 처리하기 위해 Spark의 분산 처리 파워를 활용합니다.
  • 스트리밍과 배치 통합: Delta Lake의 테이블은 배치 테이블 뿐만 아니라 스트리밍 소스와 싱크도 가능합니다. 스트리밍 데이터 수집, 배치 히스토리 백필, 상호 작용적인 쿼리 등은 모두 기본적으로 지원됩니다.
  • 스키마 강제 적용: 수집 중에 잘못된 기록의 삽입을 방지하기 위해 스키마 변화를 자동적으로 처리합니다.
  • 시간 여행: 데이터 버전 관리 기능이 롤백, 완전한 히스토리
profile
Data/AI Solution Architect

0개의 댓글