Iceberg 내부 구조와 동작 원리 기본 개념 파악하기

김재민·2025년 4월 7일

iceberg

목록 보기
3/3
post-thumbnail

Background


  • AWS Glue 콘솔에서 Iceberg 타입 테이블을 생성하고, Iceberg 내부 구조와 동작 원리 등의 기본 개념을 이해하기 위해 시나리오별 data, metadata 실제 파일을 확인해보는 과정을 기록한다.

Spec


  • S3 Bucket name: jmkim95-test-bucket
  • Glue Database: default
  • Glue Table name: jmkim_iceberg_test_table
  • Glue Table type: iceberg
  • Iceberg table prefix: glue_table/

Iceberg table optimization configuration


Glue 콘솔에서 아래와 같이 Iceberg 테이블을 생성할 때 Compcation, Snapshot retention, Orphan file deletion 라는 테이블 최적화 옵션 설정이 가능하다. 해당 옵션 내용을 살펴보자.

Iceberg table optimization configuration

  • Compcation: 작은 사이즈로 저장된 많은 파일들을 보다 큰 사이즈의 더 적은 파일 개수로 압축하여 저장시킨다.
  • Snapshot retention: Iceberg는 업데이트 등의 이벤트가 발생할 때마다 Snapshot 이 생긴다. 오래된 Snapshot 은 삭제할 수 있도록 retention 을 설정할 수 있다.
  • Orphan file deletion: Iceberg 테이블에 Write 중 실패할 경우 작업하던 파일이 해당 테이블 메타데이터에 연결 되지 않은 상태로 남아있을 수 있다. 참조되지 않는 불필요한 파일들을 삭제하는 옵션이다.

aws glue get-table-optimizer --catalog-id 251648234917 --database-name dev_de_raw --table-name jmkim_test_iceberg --type compaction --region ap-northeast-2

반드시 정리할 내용

profile
안녕하세요. 데이터 엔지니어 김재민 입니다.

0개의 댓글