S3 brower 파일 읽어오기 & delta lake 테이블 만들기

0

DB

목록 보기
13/17
  • Amazon S3의 CSV 파일을 사용하여 Databricks Delta Lake 테이블 생성하기 :

  • spark-shell 들어갈 때마다 이걸로 들어가기

spark-shell \
 --packages io.delta:delta-core_2.12:2.4.0,org.apache.hadoop:hadoop-aws:3.3.2 \
 --conf spark.hadoop.fs.s3a.impl="org.apache.hadoop.fs.s3a.S3AFileSystem" \
 --conf spark.hadoop.fs.s3a.access.key="본인액세스키" \
 --conf spark.hadoop.fs.s3a.secret.key="본인시크릿키" \
 --conf spark.hadoop.fs.s3a.endpoint="엔드포인트"
 --conf spark.sql.extensions="io.delta.sql.DeltaSparkSessionExtension" \
 --conf spark.sql.catalog.spark_catalog="org.apache.spark.sql.delta.catalog.DeltaCatalog"
  1. val df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").csv("s3a://버킷이름/파일이름.csv")

  2. df.write.format("delta").save(f"/delta/delta-test")

  • delta-test는 지정한 테이블 이름
  1. spark.sql(f" CREATE TABLE delta USING DELTA LOCATION '/delta/delta-test'")

  2. spark.sql("SELECT * FROM delta").show()

출처 : https://dev.classmethod.jp/articles/create-delta-table-using-s3-csv-file-in-databricks-kr/

profile
백엔드를 공부하고 있습니다.

0개의 댓글