๐ํ๋ก-> ์ฟ ๋ฒ๋คํฐ์ค ์ด๊ด ๊ณํ ์๋ฆฝ
๐ณ๏ธโ๐ [๊ถ๊ธํ์ ]
๐[๋ชฉ์ฐจ]
ํ์ฌ Hadoop ๊ธฐ๋ฐ ์์คํ ์ด ์ด๋ค ๋ค๋ฅธ ์์คํ ์ด๋ ์๋น์ค์ ์ฐ๊ฒฐ๋์ด ์๋์ง๋ฅผ ํ์ ํ๊ณ , ์ด๋ค์ด ์ด๊ด ํ์๋ ์ ์ ์๋ํ ์ ์๋๋ก ๋ณด์ฅํ๋ ์์ ์ด๋ค.
| ํญ๋ชฉ | ์ค๋ช | ์์ |
|---|---|---|
| ๋ฐ์ดํฐ ์์ค | Hadoop์ด ๋ฐ์ดํฐ๋ฅผ ์์งํ๊ฑฐ๋ ์ฝ๋ ์ธ๋ถ ์์คํ | DB, Kafka, FTP, API ๋ฑ |
| ๋ฐ์ดํฐ ์ฑํฌ | Hadoop์ด ๋ฐ์ดํฐ๋ฅผ ์ ๋ฌํ๋ ์ธ๋ถ ์์คํ | RDBMS, DWH, Elasticsearch, S3 ๋ฑ |
| ์ํฌํ๋ก ๋๊ตฌ | Hadoop ๊ธฐ๋ฐ ETL์ ํธ๋ฆฌ๊ฑฐํ๊ฑฐ๋ ์ค์ผ์คํ๋ ๋๊ตฌ | Airflow, Oozie, Control-M |
| ์ ์/์ธ์ฆ ๋ฐฉ์ | ์ธ๋ถ ์์คํ ๊ณผ์ ์ฐ๊ฒฐ์ ์ฌ์ฉ๋ ์ธ์ฆ ์๋จ | Kerberos, Basic Auth, OAuth |
| ๋ฉ์์ง ์ฐ๋ | Kafka, RabbitMQ ๋ฑ๊ณผ์ ์คํธ๋ฆผ ์ฐ๊ณ ์ฌ๋ถ | Kafka ํ ํฝ๋ช , ๋ฉ์์ง ํฌ๋งท |
| ๋ฆฌํฌํ ๋๊ตฌ | Hadoop ๊ฒฐ๊ณผ๋ฅผ ํ์ฉํ๋ BI ๋๊ตฌ | Tableau, Superset, PowerBI ๋ฑ |
| ์ฌ์ฉ์ ์ ์ ์คํฌ๋ฆฝํธ | Hadoop ์์์ ์ฌ์ฉ์๊ฐ ๋๋ฆฌ๋ ์ง์ ๋ง๋ ์ฝ๋ | HiveQL, PySpark, Shell Script |
| ๋ฐฐ์น/์คํธ๋ฆฌ๋ฐ ๊ตฌ๋ถ | ์ด๋ค ์ฒ๋ฆฌ๋ค์ด ๋ฐฐ์น์ธ์ง ์คํธ๋ฆฌ๋ฐ์ธ์ง ํ์ธ | Flink๋ก ์ ํ ํ์ ์ฌ๋ถ ํ์ธ |
์๋น์ค๊ฐ ์ด๋ ์ ๋์ ์์ค๊น์ง ์ ์ง๋์ด์ผ ํ๋์ง๋ฅผ ์ ๋์ ์ผ๋ก ํํํ ๋ชฉํ ๊ฐ์ด๋ค.
| SLO ํญ๋ชฉ | ๋ชฉํ (์์) | ์ค๋ช |
|---|---|---|
| API ๊ฐ์ฉ์ฑ | 99.9% / ์ | ์ ์ฒด ์์ฒญ ์ค ์ฑ๊ณต๋ฅ ๊ธฐ์ค |
| Spark Job ์ฑ๊ณต๋ฅ | 99.5% / ๋ถ๊ธฐ | ETL Job ์ค ์ค๋ฅ ์์ด ์๋ฃ๋ ๋น์จ |
| Kafka ๋ฉ์์ง ์ฒ๋ฆฌ ์ง์ฐ | < 5์ด | Kafka โ Flink ์ฒ๋ฆฌ๊น์ง์ ์๊ฐ |
| DAG ์คํ ์์ ์๊ฐ | 10๋ถ ์ดํ | Airflow DAG ์คํ ์๊ฐ ๋ชฉํ |
| Iceberg ์ฟผ๋ฆฌ ์๋ต ์๊ฐ | p95 2์ด ์ดํ | ์ฌ์ฉ์๊ฐ ์ฟผ๋ฆฌ ์ ์๋ต ์๊ฐ ๊ธฐ์ค (95% ๊ตฌ๊ฐ ๊ธฐ์ค) |
// ์ธ์ฆ(Authentication)
// ๊ถํ ์ ์ฑ - ๊ถํ/์ญํ (RBAC)
// Secrets ๊ด๋ฆฌ
// ๋คํธ์ํฌ ์ ์ฑ (Network Policy)
// ๋ฐ์ดํฐ ์ ๊ทผ ์ ์ฑ (Data Access Policy)
| ๊ตฌ์ฑ ์์ | ๊ธฐ์ ์คํ | ์ค๋ช |
|---|---|---|
| Storage | MinIO | HDFS ๋์ฒด, Iceberg ์ง์ |
| ETL Engine | Spark on K8s | Batch ์ฒ๋ฆฌ |
| Stream Engine | Flink on K8s | ์ค์๊ฐ ์ฒ๋ฆฌ |
| Workflow | Apache Airflow | DAG ๊ธฐ๋ฐ |
| Query | Trino + Iceberg | Hive ๋์ฒด |
| Message Broker | Kafka (Strimzi) | ์ค์๊ฐ ๋ฐ์ดํฐ ๋ฒํผ๋ง |
| GitOps | ArgoCD | ์๋ํ๋ ๋ฐฐํฌ |
| Image Registry | Harbor | ๋ณด์ ์ด๋ฏธ์ง ์ ์ฅ์ |
| CNI / CSI | Cilium / PowerFlex CSI | ๋คํธ์ํฌ ๋ฐ ์คํ ๋ฆฌ์ง |
| ๊ด์ธก | Prometheus, Grafana, Loki, Jaeger | ๋ชจ๋ํฐ๋ง/๋ก๊ทธ/ํธ๋ ์ด์ฑ |
| ํญ๋ชฉ | ๋ชฉํ |
|---|---|
| ์ธํ๋ผ | Hadoop โ Kubernetes ๊ธฐ๋ฐ ์ ํ |
| ๋ฐ์ดํฐ ์ ์ฅ | HDFS โ MinIO (S3 compatible) |
| ์ํฌํ๋ก | Oozie โ Airflow |
| ์ฟผ๋ฆฌ | Hive โ Trino + Iceberg |
| ์คํ | Yarn โ Spark on K8s / Flink on K8s |
| ๋ฉ์์ง | Kafka โ Strimzi ๊ธฐ๋ฐ Kafka on K8s |
| ๋ฐฐํฌ ์๋ํ | GitOps (ArgoCD) ๋์ |
| ์ด์ ํธ์ | Harbor, CNI/CSI, ๊ด์ธก ๋๊ตฌ ํฌํจ |
16์ฃผ ์์, ์ธ๋ ฅ ์ํฉ ๋ฐ ์ํฌ๋ก๋ ์ฑ๊ฒฉ์ ๋ฐ๋ผ ์กฐ์ ํ์
| ์ฃผ์ฐจ | ๋จ๊ณ | ์ฃผ์ ์์ |
|---|---|---|
| 1~2์ฃผ | ์๊ตฌ ๋ถ์ | Hadoop ๊ตฌ์ฑ ์ธ๋ฒคํ ๋ฆฌ, ์ฌ์ฉ ํจํด ์กฐ์ฌ |
| 3~4์ฃผ | ์ํคํ ์ฒ ์ค๊ณ | K8s ์ธํ๋ผ ๊ตฌ์กฐ, ๋คํธ์ํฌ/์คํ ๋ฆฌ์ง ์ค๊ณ |
| 5~6์ฃผ | ํด๋ฌ์คํฐ ์ค์น | K8s ์ค์น, CNI/CSI/Harbor ๊ตฌ์ฑ |
| 7~8์ฃผ | ํต์ฌ ๋ฐฐํฌ | MinIO, Trino, Spark, Iceberg, ArgoCD ๋ฐฐํฌ |
| 9~10์ฃผ | Kafka & Flink | Strimzi Kafka + Flink Operator ๊ตฌ์ฑ |
| 11~12์ฃผ | Airflow ์ด๊ด | DAG ์์ฑ, Spark/Flink ์ฐ๋ |
| 13~14์ฃผ | ๋ฐ์ดํฐ ์ด๊ด | HDFS โ MinIO ์ ํ, Iceberg ํ ์ด๋ธ ์์ฑ |
| 15์ฃผ | ํ ์คํธ & ์ด์ ์ค๋น | ๋ณํ ์ด์, ์ฑ๋ฅ/์์ ์ฑ ํ ์คํธ |
| 16์ฃผ | ์ ํ ๋ง๋ฌด๋ฆฌ | ์ด์ ์ ํ, ์ฌ์ฉ์ ๊ต์ก ๋ฐ ๋ฌธ์ํ |