์นดํ๋ก๊ทธ : ํ ์ด๋ธ๊ณผ ๋ทฐ์ ๊ดํ ๋ฉํ ๋ฐ์ดํฐ ๊ด๋ฆฌ
Table ๊ด๋ฆฌ ๋ฐฉ์

๋ฉ๋ชจ๋ฆฌ ๊ธฐ๋ฐ Table & View -> ์์ ํ ์ด๋ธ
์คํ ๋ฆฌ์ง ๊ธฐ๋ฐ ํ ์ด๋ธ

from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Python Spark Hive") \
.enableHiveSupport() \
.getOrCreate()
๋ ๊ฐ์ง ํ ์ด๋ธ ์์ฑ ๋ฐฉ๋ฒ
spark.sql.warehouse.dir์ด ๊ฐ๋ฆฌํค๋ ์์น์ ๋ฐ์ดํฐ๊ฐ ์ ์ฅ๋๋ค.
->PARQUET์ด ๊ธฐ๋ณธ ๋ฐ์ดํฐ ํฌ๋งท์ด๋ค.
์ ํธํ๋ ํ ์ด๋ธ ํ์
SPARK ํ
์ด๋ธ๋ก ์ฒ๋ฆฌํ๋ ๊ฒ์ ์ฅ์ (ํ์ผ๋ก ์ ์ฅํ๋ ๊ฒ๊ณผ ๋น๊ตํ ๋)
-> JDBC/ODBC๋ฑ์ผ๋ก Spark์ ์ฐ๊ฒฐํด์ ์ ๊ทผ ๊ฐ๋ฅํ๋ค.(ํ๋ธ๋ก, ํ์BI)
์ด๋ฏธ HDFS์ ์กด์ฌํ๋ ๋ฐ์ดํฐ์ ์คํค๋ง๋ฅผ ์ ์ํด์ ์ฌ์ฉํ๋ค.
-> LOCATION์ด๋ผ๋ ํ๋กํผํฐ๋ฅผ ์ฌ์ฉํ๋ค.
๋ฉํ๋ฐ์ดํฐ๋ง ์นดํ๋ก๊ทธ์ ๊ธฐ๋ก๋๋ค.
CREATE TABLE table_name(
column1 type1,
column2 type2,
column3 type3
)
USING PARQUET
LOCATION 'hdfs_path';
์ฝ๋ ์์ ํน์ ๊ธฐ๋ฅ (๋ณดํต ๋ฉ์๋์ ํํ)์ ํ ์คํธํ๊ธฐ ์ํด ์์ฑ๋ ์ฝ๋์ด๋ค.
๋ณดํต ์ ํด์ง ์ ๋ ฅ์ ์ฃผ๊ณ ์์๋ ์ถ๋ ฅ์ด ๋์ค๋์ง ํํ๋ก ํ ์คํธํ๋ค.
CI/CD๋ฅผ ์ฌ์ฉํ๋ ค๋ฉด ์ ์ฒด ์ฝ๋์ ํ ์คํธ ์ปค๋ฒ๋ฌ์ง๊ฐ ๊ต์ฅํ ์ค์ํด์ง๋ค.
๊ฐ ์ธ์ด๋ณ๋ก ์ ํด์ง ํ ์คํธ ํ๋ ์์ํฌ๋ฅผ ์ฌ์ฉํ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด๋ค.