하둡 클러스터 도전기(6) - pyspark

code_able·2023년 2월 11일
0

hive를 쓰다 보니 문제가 생겼다.
높은 cpu 사용, 데드락 문제
나는 나를 야근의 늪으로 빠트렸다.

아무튼 나의 탈출구는
hive metastore에 pyspark를 연결해 보는 것이다.

pyspark를 채택한 이유는 airflow를 쓰고 있기 때문이다.

python 라이브러리 설치

pip install pyspark

라이브러리 import

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf

hive metastore 연동

spark = SparkSession.builder.appName("sample").config("hive.metastore.uris", "thrift://localhost:9083").enableHiveSupport().getOrCreate()

데이터 조회

spark.sql("select * from test.tab").show()

데이터 삽입

import pandas as pd
df = pd.DataFrame([[1, "1"]], columns=['col1', 'col2'])
spark_df = spark.createDataFrame(df)
spark_df.write.mode("append").insertInto("test.tab2")
profile
할수 있다! code able

0개의 댓글