spark sql

Han Hanju·2021년 10월 10일
0
post-thumbnail
  • spark sql을 통해 hive external table로 부터 데이터를 가져와서 managed table(data warehouse)를 만드는 방법을 알아보자

스파크를 이용한 추가 데이터셋 탐색

1. pyspark 실행

pyspark

2. sqlContext를 이용하여 external table 접근 후 원하는 데이추출 및 dataframe에 저장

from pyspark.sql import SQLContext

df1 = sqlContext.sql("select * from smart_car where age >= 18")

3. df1에 저장된 내용 보여주기

df1.show()

4. managed table에 저장

df1.write.saveAsTable("smart_over_18")

5. hive에 smart_over_18이 저장되었는지 확인

select * from smar_over_18 limit 10

Reference

https://wikidocs.net/16565
https://www.inflearn.com/course/%EB%B9%85%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%8C%8C%EC%9D%BC%EB%9F%BF-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8/

profile
Data Analytics Engineer

0개의 댓글