hanovator.log
로그인
hanovator.log
로그인
Databricks (engineering)
Han Hanju
·
2023년 8월 10일
팔로우
0
Databricks
0
오늘날 대부분 기업은 데이터로 고전중..
너무많은 특화된 기술들로 입문이 어렵다
Delta lake
데이터 관리 및 거버넌스를 데이터 레이크에 제공하는 개방형 접근방법
트랜잭션으로 더 나은 안정성
인덱싱으로 48x 더 빠른 데이터 처리
- 필터 등 데이터 스킵도 가능
세분화된 접근제어 리스트로 대규모 데이터 거버넌스
Lakehouse 내 아키텍처
Databricks sprak vs 오픈소스 Spark
오픈소스 대비 5~20배 빠른성능
클러스터 셋팅
Databricks runtime version을 이용해 원하는 클러스터를 선택한다
sprak나 scala등 원하는 버전 선택이 가능
terminate after 선택을 하여 비용을 효율화 한다
사용이 없을시 종료되는 시간
Han Hanju
Data Analytics Engineer
팔로우
이전 포스트
[부록]logstash vs filebeat
다음 포스트
랜덤 액세스, 순차적 액세스
1개의 댓글
댓글 작성
happy
2023년 8월 10일
정리가 잘 된 글이네요. 도움이 됐습니다.
답글 달기
정리가 잘 된 글이네요. 도움이 됐습니다.