hive를 쓰다 보니 문제가 생겼다.
높은 cpu 사용, 데드락 문제
나는 나를 야근의 늪으로 빠트렸다.
아무튼 나의 탈출구는
hive metastore에 pyspark를 연결해 보는 것이다.
pyspark를 채택한 이유는 airflow를 쓰고 있기 때문이다.
pip install pyspark
import pandas as pd
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
spark = SparkSession.builder.appName("sample").config("hive.metastore.uris", "thrift://localhost:9083").enableHiveSupport().getOrCreate()
spark.sql("select * from test.tab").show()
import pandas as pd
df = pd.DataFrame([[1, "1"]], columns=['col1', 'col2'])
spark_df = spark.createDataFrame(df)
spark_df.write.mode("append").insertInto("test.tab2")