์์ฃผ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐํ๋ ์์ ๋ฉ๋ชจ๋ฆฌ์ ์ ์งํ์ฌ ์ฒ๋ฆฌ์๋๊ฐ ์ฆ๊ฐํ๋ค.
๋จ ๋ฉ๋ชจ๋ฆฌ ์๋น๋ฅผ ๋๋ฆฌ๋ฏ๋ก ๋ถํ์ํ๊ฒ ๋ชจ๋ ๊ฑธ ์บ์ฑํ ํ์๋ ์๋ค.

๋ ๊ฐ์ง ๋ฐฉ๋ฒ์ด ์กด์ฌํ๋ค.
๋ ๊ฐ์ง ๋ชจ๋ ๋ฐ์ดํฐ ํ๋ ์์ Memory/Disk/Off Heap์ ๋ณด์กดํ๋ค.
persist๋ ์ธ์๋ฅผ ํตํด ์ธ๋ถ ์ ์ด๊ฐ ๊ฐ๋ฅํ๋ค.
useDisk = True
useMemory = True
useOffHeap = False
-> off Heap ์ค์ ์ด ํ์ํ๋ค.
deserialized = False
replication = 1
-> ๋ช ๊ฐ์ ๋ณต์ฌ๋ณธ์ ์๋ก ๋ค๋ฅธ executor์ ์ ์ฅํ ์ง ๊ฒฐ์ ํ๋ค.
persist์ ์ธ์๋ก ์์ฃผ ์ฌ์ฉ๋๋ ์กฐํฉ์ ํ๋์ ์์๋ก ์ง์ ๊ฐ๋ฅํ๋ค.
persist๋ ๊ธฐ๋ณธ์ ์ผ๋ก caching๋๋ ๋ฐ์ดํฐํ๋ ์์ ๋ฉ๋ชจ๋ฆฌ์ ๋์คํฌ์ ๋ณด๊ดํ๊ณ ๋ณต์ ๋ ์ํํ๋ค.
cache๋ persist์ ๋ค์ ๋ฒ์ ์ด๋ค.
Spark SQL์ ์ฌ์ฉํ Caching
Caching์ ์ทจ์ํ๋ ๋ฐฉ๋ฒ์?
์บ์ฑ๋ ๋ฐ์ดํฐ ํ๋ ์์ด ์ฌ์ฌ์ฉ๋๋ ๊ฒ์ ๋ถ๋ช ํ๊ฒ ํ๊ธฐ
์ปฌ๋ผ์ด ๋ง๋ค๋ฉด ์ ๋ง ํ์ํ ์ปฌ๋ผ๋ง ์บ์ฑ
๋ถํ์ํ ๋ uncache
๋๋ก๋ ๋งค๋ฒ ์๋ก์ด ๋ฐ์ดํฐํ๋ ์์ ๊ณ์ฐํ๋ ๊ฒ์ด ์บ์ฑ๋ณด๋ค ๋น ๋ฅผ ์ ์๋ค.


Partitioning์ ๋ณดํต ํฐ ํ
์ด๋ธ์ ์ ์ฉ๋์ด ์๋ค. -> Fack ํ
์ด๋ธ

Fact ํ
์ด๋ธ๊ณผ Dimension ํ
์ด๋ธ ์กฐ์ธ์ ํํฐ๋ง์ด Dimension ํ
์ด๋ธ์ ์ ์ฉ ๋์ด์๋ค๋ฉด?

