Spark sql vs Hivecontext

rerun_life·2022년 6월 1일
0

spark sql 과 hivecontext는 무엇이 다를까?

개발을 하면서 hivecontext를 사용하지만 둘의 명확한 차이가 매번 기억나지 않아 다시 정리해 본다.

(둘이 명확하게 다르구나! 하고 느낀건 hive의 UDF를 spark sql에서 호출하지 못했을때 였나? 너무 당연한 결과지만...ㅎㅎ)

sc = pyspark.SparkContext(conf=conf).getOrCreate()
sqlContext = HiveContext(sc)
sqlContext.sql ('select * from table')

spark.sql('select * from table')

둘의 가장 큰 차이점은 hive의 기능을 사용할건지 말건지에 있는것 같다.
기본적으로 hive context는 sparkcontext보다 상위 개념이다

  • hiveContext는 hive UDF사용 가능, hive 테이블의 데이터를 읽거나 윈도우 함수를 사용할 수 있다

  • HiveContext를 사용하면 기존 Hive 설정이 필요하지 않는다.

profile
신나는인생

0개의 댓글