Spark 1. RDD, DF, SQL

skh951225·2023년 8월 13일

Spark

목록 보기

1/4

Spark은 Lazy operation이나 in-memory 저장기능을 통해 Hadoop보다 특정 상황에서는 100배 빠를 수 있음.
하지만 DAG 기반의 실행 최적화가 필요하지 않은 단순한 작업이나 모든 데이터가 in-memory에 담기지 못하는 상황에서는 빠르기는 하지만 그렇게까지 빠르지는 않다.

RDD(Resilient Distributed Dataset)
- Spark의 저수준의 데이터 추상화
- 한번 생성되면 변경되지 않는(Immutable) 분산 데이터 집합
DataFrame
- 행과 열로 구성된 2차원 데이터 구조
- SQL과 호환을 염두해둔 데이터구조(Hive의 영향을 많이 받음)
- Pandas의 DataFrame과는 생김새만 비슷하지 내부 구성은 완전히 다름
- RDD보다 훨씬 편리하며 내부적으로 실행계획을 최적화해줌
- RDD를 사용하게되면 Scala를 사용하는 것이 성능에 많은 영향을 줌. 하지만 DataFrame을 사용하게되면 Scala를 사용하지 않아도 성능상에 큰 차이가 없음
SQL 대비 DataFrame의 장점
- Spark Component들과의 interface제공
- Loop 기반에서 보다 쉬운 데이터 처리
- 보다 쉬운 컬럼명/값 변경
- 사용자 정의 함수의 손쉬운 실행

Pandas
- numpy 의 ndarray를 기반으로 2차원 Tabular 데이터 분석에 용이함
- numpy 의 API와 높은 호환성을 가짐
- numpy의 SimD 프로세싱으로 매우빠른 처리
- SimD(Single Instruction Multiple Data)
  - 하나의 명령어로 여러개의 값을 동시에 계산하는 방식
  - 벡터프로세싱에 많이 사용되며 게임, CG, HPC 등 다양한 분야에서 활용
  - 인텔 CPU에서는 4, 8, 16 등의 단위 벡터 기반의 SIMD 연산 수행
- 병렬 CPU 처리가 안되고 단일 서버 메모리 용량 이상 데이터를 처리할 수 없음
Spark
- Java Object로 만들어진 RDD기반
- SQL과 유사한 연산을 지원하는 API 구성
- 병렬 CPU 처리 및 분산 서버 데이터 처리 가능
- 분산 서버 처리가 가능하므로 서버를 Scale out 하여 대용량 데이터의 메모리 처리 가능
Spark DataFrame API 주요 특징
- SQL연산과 비슷한 연산자 제공
- Spark DF의 연산은 새로은 DF를 반환하는 형태. inplace 옵션이 존재하지 않음(Immutable)
- Spark DF는 [] 대신 withColumns()를 통해 컬럼의 값을 가져옴
- Spark DF는 여러 컬럼에 접근할때 []를 사용하지 않음
  - pandas_df.drop(['컬럼1', '컬럼2'])
  - spark_df.drop('컬럼1', '컬럼2')