Airflow ์ด์ ์ค ํท๊ฐ๋ฆฌ๋ ์๊ฐ ๊ฐ๋ ์ ์ ๋ฆฌํ๊ณ ์ ํ๋ค. ํท๊ฐ๋ฆด ๋ ๋ง๋ค ์ฐธ๊ณ ํ ์์ ~!
PySpark docs Quickstart Spark Connect ๋ด์ฉ ๋ฒ์ญ ๊ฒธ ์ ๋ฆฌ๋ฅผ ํตํด ๊ฐ๋ ์ ํ์คํ ํด๋ณด์~! (1์ ๋นํด ๋ด์ฉ์ด ์งง์,,)https://spark.apache.org/docs/latest/api/python/getting_starte
์ฃผ๋ง์ ์ ์ฌ๊ณ ์ถ๊ทผํ ์์์ผ ์์นจ๋ถํฐ airflow ๋ฐฐ์น๊ฐ ์ด์ํจ์ ๋ฐ๊ฒฌํ๋ค..
https://spark.apache.org/docs/latest/api/python/ 1. PySpark Python ์์ ์ฌ์ฉ๋๋ Apache Spark interface ๋ก, Spark applications ๋ฅผ Python APIs ๋ก ์ธ ์ ์์ ๋ฟ ์๋
ML ํ์ต ํ์ดํ๋ผ์ธ ์ค์ผ์ค์ ์ง๋ค๋ณด๋ฉด, ์์ผ ๋ง๋ค ๋ค๋ฅธ task ๋ฅผ ์คํํ๊ณ ์ถ์ ๋(ํด์ผ ํ ๋)๊ฐ ์๋ค. ์ด ๋ Airflow ๋ด์ฅ Operator ๋ฅผ ์ฌ์ฉํ๋ฉด ๊ฐ๋จํ๊ฒ ๊ตฌํํ ์ ์๋ค. BranchDayOfWeekOperator BranchDayOfWeek
1. ํ๋ก์ด๋? > Hadoop ์ด๋ ๋น ๋ฐ์ดํฐ๋ฅผ ๋ถํ ํ์ฌ ์ ์ฅํ๊ณ ์ฒ๋ฆฌํ๊ธฐ ์ํ ์คํ์์ค ํ๋ ์์ํฌ. ๊ตฌ์กฐํ ๋ฐ์ดํฐ๊ฐ ์๋ ๋น๊ตฌ์กฐํ ๋ฐ์ดํฐ๋ฑ์ ๋ถ์ฐ์ผ๋ก ์ ์ฅ (HDFS) ํด์ ๋ถ์ฐ ์ฒ๋ฆฌ ์์ (๋ฒ์ฉ ์ปดํจํฐ ์ฌ๋ฌ ๋๋ฅผ ํด๋ฌ์คํฐํํ๊ณ , ํด๋ฌ์คํฐ์์ ๋ณ๋ ฌ๋ก ๋์์ ์ฒ๋ฆฌํ์ฌ