오늘날 대부분 기업은 데이터로 고전중..
- 너무많은 특화된 기술들로 입문이 어렵다
Delta lake
- 데이터 관리 및 거버넌스를 데이터 레이크에 제공하는 개방형 접근방법
- 트랜잭션으로 더 나은 안정성
- 인덱싱으로 48x 더 빠른 데이터 처리
- 필터 등 데이터 스킵도 가능
- 세분화된 접근제어 리스트로 대규모 데이터 거버넌스
Lakehouse 내 아키텍처
Databricks sprak vs 오픈소스 Spark
- 오픈소스 대비 5~20배 빠른성능
클러스터 셋팅
- Databricks runtime version을 이용해 원하는 클러스터를 선택한다
- sprak나 scala등 원하는 버전 선택이 가능
- terminate after 선택을 하여 비용을 효율화 한다
정리가 잘 된 글이네요. 도움이 됐습니다.