시리즈

Delta Lake

1.Parquet 정리

데이터를 저장하는 방식 중 하나로 하둡생태계에서 많이 사용되는 파일 포맷이다.빅데이터를 처리할 때는 많은 시간과 비용이 들어가기 때문에 빠르게 읽고, 압축률이 좋아야 한다. 이러한 특징을 가진 파일 포맷으로는 Parquet(파케이), ORC, Avro(에이브로)가 있다

2024년 8월 21일

2.Delta Lake 개념

2010년대까지 기업이 데이터 활용을 위해 관리하던 방식은 크게 데이터 웨어하우스(Data Warehouse, DW)와 데이터 레이크(Data Lake)로 나눌 수 있다. 두 개념 모두 데이터를 중앙적으로 관리하기 위해 등장한 개념으로 DW는 정형 데이터를 중심으로 데

2024년 8월 21일

3.Delta Lake Operation 01. append와 overwrite

append df를 생성하고 parquet으로 저장 이후 또 다른 df를 만들어 parquet 테이블에 추가했을때 ├── \_SUCCESS ├── part-00000-49da366f-fd15-481b-a3a4-8b3bd26ef2c7-c000.snappy.parq

2024년 8월 21일

4.Delta Lake Operation 02. Convert from Parquet to Delta Lake

Parquet to Delta Lake APIdf를 생성하고 parquet으로 저장그 후 Delta lake로 변환\_delta_log가 Parquet 파일을 스캔하여 Delta Lake 데이터 쿼리에 필요한 메타데이터가 포함된 디렉토리를 빌드한다. Partitione

2024년 8월 21일

5.Delta Lake Operation 03. Merge

merge 연산을 사용하는 경우Slowly Changing Dimension 관리: 데이터의 부분적 업데이트 및 변경 이력 관리.Change Data Capture: 외부 데이터 소스에서 수집된 변경 사항을 Delta Lake에 반영.동적 조건을 사용한 (INSERT,

2024년 8월 21일

6.Delta Lake Operation 04. Time Travel

Delta Table을 만들고 일부 데이터를 추가한 다음 덮어쓰기 작업을 수행하여 3가지 버전의 Delta Table을 구축 먼저, 버전 0을 생성하기 위해 Delta Table 생성이제 Delta Table에 일부 데이터를 추가하면 버전 1이 생성마지막으로 Delt

2024년 8월 21일

7.Delta Lake Operation 05. Optimize

작은 파일들은 쿼리 읽기 속도를 늦추기 때문에 문제가 될 수 있으며 많은 작은 파일을 나열하고, 열고, 닫으면 비용이 많이 드는 오버헤드가 발생한다. 이를 Small File Problem 이라고 하며 데이터를 더 크고 효율적인 파일에 결합하면 이 오버헤드를 줄일 수

2024년 8월 21일

8.Delta Lake Operation 06. Vacuum

Delta Lake는 논리적으로 파일을 삭제하는 작업을 위해 저장소에서 파일을 물리적으로 제거하지 않으며 삭제로 표시되었고 보존 기간보다 오래된 파일을 저장소에서 물리적으로 제거하려면 vacuum 명령을 사용해야 한다.Delta Table 생성데이터 추가현재 Delta

2024년 8월 21일