Delta Lake란 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있는 오픈소스 프로젝트 기존 문제점 데이터 레이크와 데이터 웨어하우스의 문제점 데이터 레이크는 큰 데이터를 저장할 수 있지만 체계가 정확하게 잡히지 않으면 데이터 늪이 되기 쉬움
Introduction Delta Lake는 데이터 레이크 위에 Lakehouse 구조를 구축할 수 있도록 하는 오픈 소스 프로젝트입니다. Delta Lake는 ACID 트랜잭션, 확장 가능한 메타데이터 처리, 기존 데이터 레이크(S3, ADLS, GCS, HDF
Quickstart 이 가이드는 Delta Lake의 주요 기능을 빠르게 탐색하도록 도와줍니다. 상호 작용적인, 배치, 스트리밍 쿼리에서 Delta 테이블에서 읽고 쓰는 방법을 보여주는 코드 스니펫을 제공합니다. Set up Apache Spark with Delt
Delta Lake는 테이블에 대한 배치 읽기 및 쓰기를 수행하기 위한 Apache Spark DataFrame read 및 write API에서 제공하는 대부분의 옵션을 지원합니다.테이블에 대한 많은 Delta Lake 작업에서는, SparkSession을 생성할 때
Delta Lake는 Delta 테이블에서 데이터를 삭제하고 업데이트하는 데 도움이 되는 여러 문장을 지원합니다.Delta Lake를 사용하면 Delta 테이블에서 조건에 일치하는 데이터를 삭제할 수 있습니다. 예를 들어, people10m이라는 테이블이나 /tmp/d
Change Data Feed (CDF) 기능은 Delta 테이블이 버전 간에 행 수준 변경을 추적할 수 있게 합니다. Delta 테이블에서 이 기능을 활성화하면 런타임은 테이블에 쓰여진 모든 데이터에 대해 "변경 이벤트"를 기록합니다. 이는 행 데이터와 함께 해당 행
Delta 테이블은 여러 유틸리티 명령어를 지원합니다.Delta Lake 작업에서 많은 경우, 새로운 SparkSession을 생성할 때 configurations을 설정하여 Apache Spark DataSourceV2 및 Catalog API와 통합을 활성화할 수
Delta 테이블은 데이터의 품질과 무결성이 자동으로 검증되는 표준 SQL 제약 조건 관리 구문을 지원합니다. 제약 조건이 위반되면 Delta Lake는 InvariantViolationException을 throw하여 새 데이터를 추가할 수 없음을 알립니다.제약 조건
Delta 테이블의 트랜잭션 로그에는 Delta Lake 진화를 지원하는 프로토콜 버전 정보가 포함되어 있습니다. Delta Lake는 최소 리더 및 작성자 버전을 별도로 추적합니다.Delta Lake는 하위 프로토콜 버전으로 작성된 데이터도 항상 높은 프로토콜 버전의
Delta Lake 테이블의 대부분의 읽기 및 쓰기 작업에는 Apache Spark reader 및 writer API를 사용할 수 있습니다. 예를 들어, 테이블 일괄 읽기 및 쓰기 및 테이블 스트리밍 읽기 및 쓰기를 참조하십시오.그러나 Delta Lake에 특화된 몇
Delta Lake ACID 보증은 저장 시스템의 원자성과 내구성 보증에 기반합니다. 특히 델타 레이크는 저장 시스템과 상호작용할 때 다음을 의존합니다:Atomic visibility(원자적 가시성): 파일이 전체적으로 보이거나 전혀 보이지 않아야 합니다.Mutual
Delta Lake는 읽기와 쓰기 사이에서 ACID 트랜잭션 보장을 제공합니다. 이것은 다음을 의미합니다:지원되는 스토리지 시스템의 경우, 여러 클러스터에서 여러 작성자가 테이블 파티션을 동시에 수정하고 일련의 쓰기에 대한 일관된 스냅샷 뷰를 볼 수 있습니다.작업 중에
다음은 외부 데이터 처리 엔진에서 Delta 테이블에 액세스할 수 있도록하는 통합 목록입니다.Trino 373 버전 이후 Trino는 Delta Lake 테이블의 읽기 및 쓰기를 기본적으로 지원합니다. 원시 Delta Lake Connector 사용 방법에 대한 자세한
이 문서에서는 Delta Lake 사용 시 최선의 방법에 대해 설명합니다.Delta Lake 테이블을 열로 분할 할 수 있습니다. 가장 일반적으로 사용되는 분할 열은 날짜입니다. 분할할 열을 결정할 때 다음 두 가지 규칙을 따르세요.열의 cardinality가 매우 높
Delta Lake는 데이터 레이크에 안정성을 제공하는 오픈 소스 저장소 계층입니다. Delta Lake는 ACID 트랜잭션, 확장 가능한 메타데이터 처리 및 스트리밍 및 배치 데이터 처리를 통합합니다. Delta Lake는 기존 데이터 레이크 위에서 실행되며 Apac
이 페이지에는 릴리스 정보가 있습니다.The GitHub releases page describes features of each release.The following table lists Delta Lake versions and their compatible Ap