Databricks (engineering)

Han Hanju·2023년 8월 10일
0
post-thumbnail

오늘날 대부분 기업은 데이터로 고전중..

  • 너무많은 특화된 기술들로 입문이 어렵다

Delta lake

  • 데이터 관리 및 거버넌스를 데이터 레이크에 제공하는 개방형 접근방법
  • 트랜잭션으로 더 나은 안정성
  • 인덱싱으로 48x 더 빠른 데이터 처리
    - 필터 등 데이터 스킵도 가능
  • 세분화된 접근제어 리스트로 대규모 데이터 거버넌스

Lakehouse 내 아키텍처

Databricks sprak vs 오픈소스 Spark

  • 오픈소스 대비 5~20배 빠른성능

클러스터 셋팅

  • Databricks runtime version을 이용해 원하는 클러스터를 선택한다
    • sprak나 scala등 원하는 버전 선택이 가능
  • terminate after 선택을 하여 비용을 효율화 한다
    • 사용이 없을시 종료되는 시간
profile
Data Analytics Engineer

1개의 댓글

comment-user-thumbnail
2023년 8월 10일

정리가 잘 된 글이네요. 도움이 됐습니다.

답글 달기