[Apache Spark] 스파크 SQL

연수·2021년 11월 30일

spark

목록 보기

10/26

스파크 SQL은 스파크에서 가장 중요하고 강력한 기능 중 하나이다. 스파크 SQL은 DataFrame과의 뛰어난 호환성 덕분에 다양한 기업에서 강력한 기능으로 자리매김하였다.

스파크 SQL은 하이브 메타스토어를 사용하므로 하이브와 잘 연동할 수 있다. 스파크 SQL은 하이브 메타스토어에 접속한 뒤 조회할 파일 수를 최소화하기 위해 메타데이터를 참조한다.

스파크는 자바 데이터베이스 연결(JDBC) 인터페이스를 제공한다.

쓰리프트 JDBC/ODBC 서버는 하이브 1.2.1 버전의 HiveServer2에 맞추어 구현되어 있다.

관리형 테이블/외부 테이블
- 메타데이터 저장
- DataFrame의 saveAsTable 메서드는 스파크가 관련된 모든 정보를 추적할 수 있는 관리형 테이블을 만들 수 있다.
- saveAsTable 메서드는 테이블을 읽고 데이터를 스파크 포맷으로 변환한 후 새로운 경로에 저장한다.

구조체
- 맵에 가깝다.
- 스파크에서 중첩 데이터를 생성하거나 쿼리하는 방법을 제공
- 구조체를 만들기 위해서는 여러 컬럼이나 표현식을 괄호로 묶으면 된다.
리스트
맵

✔️ 함수

✔️ 서브쿼리

[출처] 스파크 완벽 가이드 (빌 체임버스, 마테이 자하리아 지음)

DCDI