오늘날 대부분 기업은 데이터로 고전중..
![](https://velog.velcdn.com/images/hanovator/post/f06aed1e-95b2-4bf5-a4fb-36d173a024ca/image.png)
- 너무많은 특화된 기술들로 입문이 어렵다
Delta lake
- 데이터 관리 및 거버넌스를 데이터 레이크에 제공하는 개방형 접근방법
- 트랜잭션으로 더 나은 안정성
- 인덱싱으로 48x 더 빠른 데이터 처리
- 필터 등 데이터 스킵도 가능
- 세분화된 접근제어 리스트로 대규모 데이터 거버넌스
Lakehouse 내 아키텍처
Databricks sprak vs 오픈소스 Spark
- 오픈소스 대비 5~20배 빠른성능
![](https://velog.velcdn.com/images/hanovator/post/03ebaa38-c44d-4906-8936-98a45a4a1026/image.png)
클러스터 셋팅
![](https://velog.velcdn.com/images/hanovator/post/c25ffe32-522e-483d-8020-4dcb164379de/image.png)
- Databricks runtime version을 이용해 원하는 클러스터를 선택한다
- sprak나 scala등 원하는 버전 선택이 가능
- terminate after 선택을 하여 비용을 효율화 한다
![Powered by GraphCDN, the GraphQL CDN](https://graphcdn.io/badge.svg)
정리가 잘 된 글이네요. 도움이 됐습니다.