spark sql

Han Hanju·2021년 7월 2일

1. Spark vs Hive

Hive와 호환성
- ANSI-sql, HiveQL을 모두 지원하는 자체 SQL Parser포함
DataFrame과 호환성이 좋다
성능 개선
Spark SQL은 온라인 트랜잭션 처리(Online transaction processing, OLTP)oltp를 위한 데이터베이스가 아니라 온라인 분석 처리(Online Analytical Processing, OLAP)olap를 위한 데이터베이스로 작동한다.
적은 데이터에서는 오히러 적합하지 않다.
Hive Metastore를 사용

먼저 Thrift JDBC/ODBC 서버에서 connect jdbc:hive2://localhost:10000로 접속 후 zeppelin에서 hive interpreter로 실행해줘야 한다.
hive interpreter가 없는경우

CREATE TEMPORARY TABLE people
    USING org.apache.spark.sql.json
    OPTIONS (path '[the path to the JSON dataset]')

CREATE TABLE cate
    USING org.apache.spark.sql.json
    OPTIONS (path '/user/han/data/*')

https://databricks.com/blog/2015/02/02/an-introduction-to-json-support-in-spark-sql.html

Data Analytics Engineer