Amazon S3의 CSV 파일을 사용하여 Databricks Delta Lake 테이블 생성하기 :
spark-shell 들어갈 때마다 이걸로 들어가기
spark-shell \
--packages io.delta:delta-core_2.12:2.4.0,org.apache.hadoop:hadoop-aws:3.3.2 \
--conf spark.hadoop.fs.s3a.impl="org.apache.hadoop.fs.s3a.S3AFileSystem" \
--conf spark.hadoop.fs.s3a.access.key="본인액세스키" \
--conf spark.hadoop.fs.s3a.secret.key="본인시크릿키" \
--conf spark.hadoop.fs.s3a.endpoint="엔드포인트"
--conf spark.sql.extensions="io.delta.sql.DeltaSparkSessionExtension" \
--conf spark.sql.catalog.spark_catalog="org.apache.spark.sql.delta.catalog.DeltaCatalog"
val df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").csv("s3a://버킷이름/파일이름.csv")
df.write.format("delta").save(f"/delta/delta-test")
spark.sql(f" CREATE TABLE delta USING DELTA LOCATION '/delta/delta-test'")
spark.sql("SELECT * FROM delta").show()
출처 : https://dev.classmethod.jp/articles/create-delta-table-using-s3-csv-file-in-databricks-kr/