# deltalake

6개의 포스트
post-thumbnail

[Delta] 델타로그 CleanUp 문제 분석

최근 스파크를 이용하여 스트리밍 데이터를 델타레이크로 저장할 때 발생한 문제를 소개하고자 한다. 현재 작업 중인 환경에서는 스파크 스트리밍의 마이크로 배치 처리시간이 평균적으로 일반적인 쓰기 작업은 10 초 내외이고, 10 번의 쓰기 작업마다 새로운 체크포인트 파일을

2022년 11월 6일
·
0개의 댓글
·
post-thumbnail

[Delta] 멀티파트 체크포인트 분석

스파크를 이용하여 스트리밍 데이터를 델타레이크로 저장할 때 체크포인트가 성능에 어떠한 영향을 미치는지 살펴보고, 이를 개선할 수 있는 멀티파트 체크포인트 기능에 대해 알아보도록 하자.(아래의 실험 환경은 모두 마이크로 배치 간격이 1 분으로 설정되어 있다.)위의 그래프

2022년 10월 27일
·
0개의 댓글
·

[Delta] 읽기 성능 최적화

델타레이크는 효율적인 읽기 작업을 위해 여러 가지 최적화 기법을 제공한다. 최적화 기법은 크게 델타로그를 이용해서 데이터 파일을 필터링하는 방식과 파케이(Parquet)가 제공하는 필터링 기능을 이용하는 방식으로 나뉜다. 오늘은 아래 예제를 이용해서 필수적인 최적화 기

2022년 10월 18일
·
0개의 댓글
·

[Delta] 델타로그 최적화

델타레이크는 쓰기 작업이나 여러 최적화 과정(Compaction, Z-Order, ...)이 반복될수록 로그가 쌓여간다. 이렇게 로그가 지속적으로 쌓여가면 마지막 상태 정보를 담고 있는 스냅샷을 만드는 작업이 점점 더 오래 걸릴 수 밖에 없어진다. 이 문제를 개선하기

2022년 10월 17일
·
0개의 댓글
·

[Delta] 델타로그 분석

스파크로 유명한 데이터브릭스에서 몇 년전에 공개한 델타레이크(DeltaLake)라는 기술은 데이터레이크와 데이터웨어하우스의 장점을 합친 레이크하우스 아키텍처의 핵심 기술이다. 이는 기존에 (기술적인/비용적인 한계로 인해) 원시 데이터는 데이터레이크에, 가공 데이터는 데

2022년 10월 15일
·
0개의 댓글
·
post-thumbnail

AWS - 데이터 레이크와 웨어하우스 최신기술 집중분석

강웅석 발표자 - 주관이 은연 들어갔을 수도 있다. 다양한 클라우드 데이터 플랫폼 패러다임 살펴보기 및 차세대 데이터 플랫폼 기술 살펴보기.

2022년 9월 22일
·
0개의 댓글
·