Chapter4 구조적 API 구조적 API에는 3가지 분산 컬렉션이 존재한다. > DataSet DataFrame SQL 테이블과 뷰 배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다. DataFrame과 Dataset DataFrame과 Dataset의 정의는 잘 정의된 로우와 컬럼을 가지고 있는 분산 테이블 형태의 컬렉션이다. 결과를 생성하기 위해 어떤 데이터에 어떤 연산을 적용해야 하는지 정의하는 지연 연산의 실행계획이며, 불변성을 가진다. 스키마(Schema) 스키마는 DataFrame의 컬럼명과 데이터 타입을 정의한 것을 말한다. 데이터 소스에서 얻거나 직접 정의할 수 있으며, 여러 데이터 타입으로 구성되므로 어떤 데이터 타입이 어느 위치에 존재하는지 정의하는 방법이 필요하다. 스파크 구조적 데이터 타입 개요 스파크는 실행 계획 수립과 처리에 사용하는