하둡 클러스터 도전기(6) - pyspark

code_able·2023년 2월 11일

hive를 쓰다 보니 문제가 생겼다.
높은 cpu 사용, 데드락 문제
나는 나를 야근의 늪으로 빠트렸다.

아무튼 나의 탈출구는
hive metastore에 pyspark를 연결해 보는 것이다.

pyspark를 채택한 이유는 airflow를 쓰고 있기 때문이다.

python 라이브러리 설치

pip install pyspark

라이브러리 import

import pandas as pd
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf

hive metastore 연동

spark = SparkSession.builder.appName("sample").config("hive.metastore.uris", "thrift://localhost:9083").enableHiveSupport().getOrCreate()

데이터 조회

spark.sql("select * from test.tab").show()

데이터 삽입

import pandas as pd
df = pd.DataFrame([[1, "1"]], columns=['col1', 'col2'])
spark_df = spark.createDataFrame(df)
spark_df.write.mode("append").insertInto("test.tab2")

code_able

할수 있다! code able

이전 포스트

하둡 클러스터 도전기(5) - HIVESERVER

다음 포스트

하둡 클러스터 도전기(6) - pyspark

python 라이브러리 설치

라이브러리 import

hive metastore 연동

데이터 조회

데이터 삽입

하둡 클러스터 도전기(5) - HIVESERVER

Airflow 사용기 (1) - 설치

0개의 댓글

관련 채용 정보