
λ°μ΄ν°κ° λ¨Όμ λΆμ°λμ΄μΌ νλ€.
Hadoop Mapμ λ°μ΄ν° μ²λ¦¬ λ¨μλ λμ€ν¬μ μλ λ°μ΄ν° λΈλ‘μ΄λ€.(128MB)
-> hdfs-site.xmlμ μλ γ
fs.block.size νλ‘νΌν°κ° κ²°μ νλ€.
Sparkμμλ μ΄λ₯Ό νν°μ
(Partition)μ΄λΌκ³ νλ€. (128MB)
-> spark.sql.files.maxPartitionBytes: HDFSλ±μ μλ νμΌμ μ½μ΄μ¬ λλ§ μ μ©λλ€.
λλμ΄μ§ λ°μ΄ν°λ₯Ό κ°κ° λ°λ‘ λμ μ²λ¦¬

λ°μ΄ν°νλ μμ μμ νν°μ λ€λ‘ ꡬμ±λλ€.
μ
λ ₯ λ°μ΄ν°νλ μμ μνλ κ²°κ³Ό λμΆκΉμ§ λ€λ₯Έ λ°μ΄ν° νλ μμΌλ‘ κ³μ λ³ννλ€.

μ νλ§: κΈ°μ‘΄μ νν°μ μΌλ‘λ λΆκ°λ₯νμ¬ μλ‘ νν°μ μ λ§λ ν λ€νΈμν¬λ₯Ό νκ³ λ°μ΄ν°κ° μ΄λνλ€.
μ νλ§μ΄ λ°μνλ κ²½μ°
μ νλ§μ΄ λ°μν λ λ€νΈμν¬λ₯Ό νκ³ λ°μ΄ν°κ° μ΄λνκ² λλ€.
spark.sql.shuffle.partitionsμ΄ κ²°μ νλ€.(κΈ°λ³Έ/μ΅λ 200)
μ€νΌλ μ΄μ μ λ°λΌ νν°μ μκ° κ²°μ λλ€.
random, hashing partition, range partition λ±λ±
sortingμ κ²½μ° range partitionμ μ¬μ©νλ€.

