profile
개발자 지망생입니다.
태그 목록
전체보기 (47)대학생(47)TIL(47)방학(47)개발자(46)공부(46)Java의 정석(31)Java(31)Spring(31)spark(16)Data Engineer(13)dataframe(5)데이터 엔지니어(5)Spark 완벽 가이드(5)스파크 완벽 가이드(3)dataset(3)rdd(2)자료구조(2)스파크 애플리케이션(2)스트림(2)Spark완벽가이드(2)저수준 API(2)익명 클래스(1)Chracter(1)클러스터(1)schema(1)ArrayList(1)네트워킹(1)Thread(1)stack(1)queue(1)그룹화(1)Spark완벽 가이드(1)함수형 인터페이스(1)Calendar클래스(1)Spark API(1)구조적 API(1)TreeMap(1)boolean(1)통합(1)경쟁 상태(1)브로드캐스트 변수(1)iterator(1)직렬화(1)(1)중간 연산(1)url(1)datatype(1)파케이(1)다형성(1)JOIN(1)복합 데이터 타입(1)지연 연산(1)annotation(1)어큐뮬레이터(1)linkedlist(1)partition(1)ip(1)tcp(1)스키마(1)IO(1)java.lang(1)지네릭스(1)String클래스(1)람다식(1)UDP(1)comparator(1)json(1)Spark 완벽가이드(1)collection framework(1)소켓(1)조인(1)인터페이스(1)추상클래스(1)최종 연산(1)odbc(1)데이터베이스(1)입출력(1)synchronized(1)테이블(1)예외처리(1)쓰레드 동기화(1)쓰레드 우선순위(1)집계 연산(1)MLlib(1)try-with-resources(1)Spark Application(1)HashSet(1)로우(1)HashMap(1)표준입출력(1)멀티쓰레드(1)ORC(1)쓰레드 그룹(1)udf(1)컬럼(1)구조적 스트리밍(1)컴퓨팅 엔진(1)날짜와 시간(1)Spark R(1)형식화클래스(1)collector(1)병렬 처리(1)언박싱(1)싱글쓰레드(1)try catch(1)기아 현상(1)Math클래스(1)제어자(1)오토박싱(1)Object클래스(1)csv(1)JDBC(1)스파크 SQL(1)NUMERIC(1)row(1)java.time(1)내부 클래스(1)TreeSet(1)열거형(1)collect(1)분산형 공유변수(1)데이터 소스(1)서브쿼리(1)Spark-submit(1)보조 스트림(1)

[스터디] 스파크 완벽 가이드 4일차

Chapter4 구조적 API 구조적 API에는 3가지 분산 컬렉션이 존재한다. > DataSet DataFrame SQL 테이블과 뷰 배치와 스트리밍처리에서 구조적 API를 사용할 수 있으며, 구조적 API를 활용해 배치 작업을 스트리밍 작업으로 변환할 수 있다. DataFrame과 Dataset DataFrame과 Dataset의 정의는 잘 정의된 로우와 컬럼을 가지고 있는 분산 테이블 형태의 컬렉션이다. 결과를 생성하기 위해 어떤 데이터에 어떤 연산을 적용해야 하는지 정의하는 지연 연산의 실행계획이며, 불변성을 가진다. 스키마(Schema) 스키마는 DataFrame의 컬럼명과 데이터 타입을 정의한 것을 말한다. 데이터 소스에서 얻거나 직접 정의할 수 있으며, 여러 데이터 타입으로 구성되므로 어떤 데이터 타입이 어느 위치에 존재하는지 정의하는 방법이 필요하다. 스파크 구조적 데이터 타입 개요 스파크는 실행 계획 수립과 처리에 사용하는

2022년 1월 11일
·
0개의 댓글
·