박지운·2021년 5월 24일


0) 사용방법

1) 사용화면

1-1) 초기 화면

  • 시작화면 3가지 메뉴 선택 가능
    1) Explore the Quickstart Tutorial
    2) Import & Explore Data
    3) Create a Blank Notebook

1-2) 전체 메뉴

  • 왼쪽 메뉴바 선택 시 7가지 메뉴 선택 가능
    1) Create
    2) Workspace
    3) Repos
    4) Recents
    5) Search
    6) Data
    7) Clusters
    8) Jobs

1-3) Create

  • Create 클릭 시 Notebook/Table/Cluster 세 가지로 생성 가능

* Create > Notebook

  • Create > Notebook : Name, Default Language, Cluster 입력하고 Create 클릭
  • Default Language의 경우, Python/Scala/SQL/R 네가지 중 선택 가능
  • cmd 작성 가능
  • New Notebook/Clone/Rename/Move/Delete/Upload Data/Export/Publish/Clear Revision History/Change Default Language
  • Export : DBC Archive/Source File/IPython Notebook/HTML
  • Undo/Cut current cell/Copy current cell/Paste cell above/Paste cell below/Move a cell up/Move a cell down/Delete current cell/Select all cells/Find and Replace/Format SQL code/Set Python indentation
  • Standard/Results Only/Side-by-Side/Hide line numbers/Hide command numbers/Show table of contents/Notebook Theme/New Dashboard
  • Notebook Theme : Light Theme/Dark Theme
  • Run all cells in this notebook
  • Clear Results/Clear State/Clear State&Results/Clear State&Run All
  • Edit mode & Command mode 단축키 및 명령어
  • 데이터브릭스의 시각화 툴은 총 11가지로 선택하여 사용 가능함
    (Bar, Scatter, Map, Line, Area, Pie, Quantile, Histogram, Box plot, Q-Q plot, Pivot)

* Create > Table

  • 5가지 Data source 선택 가능 : Upload File/S3/DBFS/Other Data Sources/Partner Integrations
  • Upload File : Data source/DBFS Target Directory/Files
  • S3 : Create Table with UI/Create Table in Notebook(if you need to specify AWS keys to create a table)
  • DBFS : Select a file from DBFS
  • Other Data Sources : Connector
  • Connector : Amazon Redshift/Amazon Kinesis/Cassandra/Snowflake/JDBC/Kafka/ Redis/Elasticsearch
  • Partner Integrations

* Create > Cluster

  • Create > Cluster : Cluster name/databrics runtime version 선택 후 클러스터 생성 가능
  • Databricks Runtime Version 선택 가능
  • Instance : Availability Zone 선택 가능(us-west-2c/2b/2a)
  • Spark : Spark Config/Environment Variables
  • Cluster Name 입력 후 Create Cluster 버튼을 클릭하면 Cluster가 생성됨
  • 해당 Cluster의 Configuration, Notebooks, Libraries, Event Log, Spark UI, Driver Logs, Metrics, Apps, Spark Cluster UI-Master 확인 가능
  • Cluster 이름 옆 버튼을 통해 Edit, Clone, Restart, Terminate, Delete 가능

1-4) Workspace


  • Shared/Users로 구분하여 작업 선택 가능
  • 각 리스트 옆 화살표 클릭 시 Clone, Rename, Move, Delete, Export, Permission, Copy File Path, Open in New Tab 수행 가능
  • 리스트 파일 더블클릭시 작업 중 페이지로 이동 가능

1-5) Repos

1-6) Recents

  • 최근 작업 페이지로 이동 가능

  • 검색하여 작업 페이지로 이동 가능

1-8) Data

  • Databases > Tables 선택 가능

1-9) Clusters

  • All-Purpose Clusters와 Job Clusters 확인 가능

1-10) Jobs

  • 유료 요금제에서만 사용 가능한 탭

2) Pricing

  • Microsoft Azure, AWS, Google Cloud 세 가지 클라우드 중 선택

2-1) Pricing - Azure

2-2) Pricing - AWS

2-3) Pricing - Google Cloud

3) 참고영상

Introduction to Databricks [New demo linked in description]
Databricks Overview and Getting Started Guide
AWS, 마이크로소프트, 구글 알파벳이 투자한 회사(데이터브릭스 회사 소개)
2021년 가장 기대되는 IPO 상장 예정 데이터 기업, 데이터브릭스!

