- sortWithinPartitions("COL")
- transformation을 처리하기 전에 성능을 최적화하기 위해 partition별 정렬을 수행하기도 한다.
spark.read.format("json").load("/data/*_sample.json").sortWithinPartitions("COL")
- repartition and coalesce
- repartition은 무조건 전체 데이터를 셔플한다. 파티션 수를 늘리거나 특정 컬럼을 기준으로 파티션을 만드는 경우에만 사용한다.
- coalesce는 전체 데이터를 셔플하지 않고 파티션을 병합하려는 경우에 사용한다.