(둘이 명확하게 다르구나! 하고 느낀건 hive의 UDF를 spark sql에서 호출하지 못했을때 였나? 너무 당연한 결과지만...ㅎㅎ)
sc = pyspark.SparkContext(conf=conf).getOrCreate()
sqlContext = HiveContext(sc)
sqlContext.sql ('select * from table')
spark.sql('select * from table')
둘의 가장 큰 차이점은 hive의 기능을 사용할건지 말건지에 있는것 같다.
기본적으로 hive context는 sparkcontext보다 상위 개념이다
hiveContext는 hive UDF사용 가능, hive 테이블의 데이터를 읽거나 윈도우 함수를 사용할 수 있다
HiveContext를 사용하면 기존 Hive 설정이 필요하지 않는다.