시리즈

Spark

1.Spark 개념

하둡의 YARN이 등장하게 되면서 YARN과 Spark의 조합으로 대규모 분산 데이터 처리를 빠르고 효율적으로 할 수 있게 되면서 빅데이터 분산 처리 모든 분야에서 쓰이게 된 엔진spark는 기본적으로 데이터 센터나 클라우드에서 대규모 분산 데이터 처리를 하기 위해 설

2024년 7월 9일

2.Spark SQL&Dataframe

Apache Spark module으로 구조적으로 만들어진 데이터구조적으로 만들어진 데이터는 테이블에서 사용할 수 있고, 쿼리를 할 수 있음어떤 규칙이 있는 데이터가 구조적 데이터구조적 데이터는 기존의 rdd에서 확장된 개념 데이터프레임이라는 오브젝트 사용데이터프레임은

2024년 7월 11일

3.Spark RDD

Spark 는 in memory data 처리 HADOOP은 disk 기반의 데이터 처리RDD ( Resilient Distributed Dataset) 스파크에서 사용되는 기본 데이터 구조스파크에서 내부적으로 연산하는 데이터들을 모두 RDD 타입으로 처리RDD 의 다

2024년 7월 10일

4. Apache Spark SQL 엔진의 쿼리 처리 과정

Schema Information, table name 등이 확정 되지 않았기 때문에 참조하는 Data Structure, Column name 등이 제대로 확인 되지 않은 상태Spark는 Catalog를 사용하여 Database, Table, View, functio

2024년 9월 4일

5.Spark Memory Allocation & Memory Management

Spark는 JVM(Java Virtual Machine) 위에서 동작Spark의 메모리 관리 구조는 주로 Spark Memory, Memory inside of JVM 및 Memory outside JVM 으로 나눌 수 있음 JVM 내부 메모리는 Spark appli

2024년 9월 4일