📒 Spark(3)

Kimdongki·2024년 6월 18일

Spark

목록 보기

3/22

📌 Spark 데이터 시스템 아키텍처

📌 데이터 병렬처리의 조건

데이터가 먼저 분산되어야 한다.
- Hadoop Map의 데이터 처리 단위는 디스크에 있는 데이터 블록이다.(128MB)
  -> hdfs-site.xml에 있는 ㅇfs.block.size 프로퍼티가 결정한다.
- Spark에서는 이를 파티션(Partition)이라고 한다. (128MB)
  -> spark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용된다.
나누어진 데이터를 각각 따로 동시 처리
- MapReduce에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map Task가 실행된다.
- Spark에서는 파티션 단위로 메모리에 로드되어 Executor가 배정된다.

처리 데이터를 나누기 -> 파티션 -> 병렬처리

📌 Spark 데이터 처리 흐름

데이터프레임은 작은 파티션들로 구성된다.
- 데이터프레임은 한 번 만들어지면 수정 불가하다(Immutable)
입력 데이터프레임을 원하는 결과 도출까지 다른 데이터 프레임으로 계속 변환한다.

📌 셔플링 : 파티션간에 데이터 이동이 필요한 경우 발생

셔플링: 기존의 파티션으로는 불가능하여 새로 파티션을 만든 후 네트워크를 타고 데이터가 이동한다.
셔플링이 발생하는 경우
- 명시적 파티션을 새롭게 하는 경우(ex: 파티션 수 줄이기)
- 시스템에 의해 이루어지는 셔플링(ex: 그룹핑 -> aggregation & sorting)
셔플링이 발생할 때 네트워크를 타고 데이터가 이동하게 된다.
- 몇개의 파티션이 결과로 만들어지는가
  - spark.sql.shuffle.partitions이 결정한다.(기본/최대 200)
  - 오퍼레이션에 따라 파티션 수가 결정된다.
    - random, hashing partition, range partition 등등
    - sorting의 경우 range partition을 사용한다.
- 또한 Data Skew 발생 가능하다.

셔플링: hashing partition
-> Aggregation 오퍼레이션

📌 Data Skewness

Data Partitioning은 데이터 처리에 병렬성을 주지만 단점도 존재한다.
- 이는 데이터가 균등하게 분포하지 안는 경우이다.
  -> 주로 데이터 셔플링 후에 발생한다.
- 셔플링을 최소화하는 것이 중요하다.
- 파티션 최적화가 중요하다.

이전 포스트

📒 Spark(2)

다음 포스트

📒 Spark(4)

0개의 댓글