2.1 스파크의 기본 아키텍처컴퓨터 클러스터 : 여러대의 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용하는 것스파크 : 클러스터의 데이터 처리 작업을 관리, 조율할 수 있는 프레임워크사용자는 클러스터 매니저에 스파크 애플리케이션을 제출한다. 이를 받은 클러스터 매니저는
컴퓨터 클러스터 : 여러대의 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용하는 것스파크 : 클러스터의 데이터 처리 작업을 관리, 조율할 수 있는 프레임워크사용자는 클러스터 매니저에 스파크 애플리케이션을 제출한다. 이를 받은 클러스터 매니저는 애플리케이션 실행에 필요한 자
스파크의 구조저수준 API구조적 API : 스파크의 에코시스템의 방대한 기능과 라이브러리의 바탕표준 라이브러리스파크 라이브러리 : 그래프 분석, 머신 러닝, 스트리밍 등 다양한 작업 지원spark-submit 명령대화형 셸에서 개발한 프로그램을 운영용 애플리케이션으로
스파크 어플리케이션 동작 방식을 공부를 하면서 driver process에서 sparkSession 또는 SparkContext에 대한 설명이 많았는데.. 둘의 차이점이 궁금해져서 포스팅을 해보려고 한다.이 둘의 차이는 스파크 애플리케이션에서 사용되는 스파크의 버전에
데이터 흐름을 정의하는 기본 추상화 개념구조적 API가 처리하는 데이터 유형비정형 로그파일반정형 CSV파일파케이(Parquet) 파일구조적API의 분산 컬렉션APIDatasetDataFrameSQL 테이블과 뷰배치와 스트리밍처리에서 구조적 API를 사용할 수 있음배치작
조인표현식이란?왼쪽과 오른쪽 데이터셋에 있는 하나 이상의 키값을 비교왼쪽 데이터셋과 오른쪽 데이터 셋의 결합 여부를 결정동등조인(equi-join) : 왼쪽과 오른쪽 데이터 셋의 지정된 키가 동일한지 비교하여 데이터셋 결합내부 조인 : 왼쪽과 오른쪽 데이터 셋에 키가