[Spark] Other tips

yozzum·2023년 10월 10일

Spark

목록 보기

20/21

sortWithinPartitions("COL")

transformation을 처리하기 전에 성능을 최적화하기 위해 partition별 정렬을 수행하기도 한다.

spark.read.format("json").load("/data/*_sample.json").sortWithinPartitions("COL")

repartition and coalesce

repartition은 무조건 전체 데이터를 셔플한다. 파티션 수를 늘리거나 특정 컬럼을 기준으로 파티션을 만드는 경우에만 사용한다.
coalesce는 전체 데이터를 셔플하지 않고 파티션을 병합하려는 경우에 사용한다.

yozzum

이전 포스트

[Spark] Transformation and Action

다음 포스트

[Glue] No space left on device

0개의 댓글