하둡의 YARN이 등장하게 되면서 YARN과 Spark의 조합으로 대규모 분산 데이터 처리를 빠르고 효율적으로 할 수 있게 되면서 빅데이터 분산 처리 모든 분야에서 쓰이게 된 엔진spark는 기본적으로 데이터 센터나 클라우드에서 대규모 분산 데이터 처리를 하기 위해 설
Apache Spark module으로 구조적으로 만들어진 데이터구조적으로 만들어진 데이터는 테이블에서 사용할 수 있고, 쿼리를 할 수 있음어떤 규칙이 있는 데이터가 구조적 데이터구조적 데이터는 기존의 rdd에서 확장된 개념 데이터프레임이라는 오브젝트 사용데이터프레임은
Spark 는 in memory data 처리 HADOOP은 disk 기반의 데이터 처리RDD ( Resilient Distributed Dataset) 스파크에서 사용되는 기본 데이터 구조스파크에서 내부적으로 연산하는 데이터들을 모두 RDD 타입으로 처리RDD 의 다
Schema Information, table name 등이 확정 되지 않았기 때문에 참조하는 Data Structure, Column name 등이 제대로 확인 되지 않은 상태Spark는 Catalog를 사용하여 Database, Table, View, functio
Spark는 JVM(Java Virtual Machine) 위에서 동작Spark의 메모리 관리 구조는 주로 Spark Memory, Memory inside of JVM 및 Memory outside JVM 으로 나눌 수 있음 JVM 내부 메모리는 Spark appli