πŸ“’ End-to-End 데이터 νŒŒμ΄ν”„λΌμΈ

KimdongkiΒ·2024λ…„ 6μ›” 7일
0

DB

λͺ©λ‘ 보기
26/33

πŸ“Œ 전체적인 λ°©ν–₯


  • Small Data -> Big Data

    • Panddas -> Spark
    • Data Warehouse -> Data Lake
    • ETL -> ELT
  • 배치 처리 -> μ‹€μ‹œκ°„ 처리(Kafka)

  • μ˜μ‚¬ κ²°μ • -> μ œν’ˆ/μ„œλΉ„μŠ€ ν’ˆμ§ˆ κ°œμ„ 

  • μ„œλΉ„μŠ€λ³„ μ „μš© μ„œλ²„ -> K8s λ“±μ˜ μ»¨ν…Œμ΄λ„ˆ 기술 μ‚¬μš© -> λͺ¨λ“  Serviceκ°€ Docker둜 λ˜μ–΄μ•Ό ν•œλ‹€.

  • 데이터 ν’ˆμ§ˆκ³Ό κ°œμΈμ •λ³΄ 보호

  • DBT -> DAκ°€ 많이 μ‚¬μš©ν•¨


πŸ“Œ Socar


  • Socar Data Group - Airflow와 ν•¨κ»˜ν•œ 데이터 ν™˜κ²½ ꡬ좕기


πŸ“Œ Cupang


  • 데이터 ν”Œλž«νΌ 2022 : νŽ˜νƒ€λ°”μ΄νŠΈ 규λͺ¨μ˜ κΈ€λ‘œλ²Œ ν™•μž₯

  • 데이터 ν”Œλž«νΌ 2022 : 데이터λ₯Ό λΉ„μ¦ˆλ‹ˆμŠ€ μΈμ‚¬μ΄νŠΈλ‘œ μ „ν™˜ν•˜κΈ°

  • 쿠팑이츠 데이터 ν”Œλž«νΌ : 데이터 기반의 λΉ„μ¦ˆλ‹ˆμŠ€ μ „λž΅ 및 μ„±μž₯ : μ„€μ • 기반의 νŒŒμ΄ν”„λΌμΈμœΌλ‘œ 데이터 μˆ˜μ§‘, 처리 및 ν™œμš©ν•˜κΈ°

  • 쿠팑 SCM μ›Œν¬ν”Œλ‘œμš° : 효율적이고 ν™•μž₯ κ°€λŠ₯ν•œ low-code, no-code ν”Œλž«νΌ 개발



πŸ“Œ λ²„ν‚·ν”Œλ ˆμ΄μŠ€(였늘의 μ§‘)


  • λ²„ν‚·ν”Œλ ˆμ΄μŠ€ Airflow λ„μž…κΈ°

  • 데이터 μ—”μ§€λ‹ˆμ–΄μ˜ 쒌좩우돌 검색 개발기

  • κ΄‘κ³  μ •μ‚° μ‹œμŠ€ν…œμ— Kafka Streams λ„μž…ν•˜κΈ°

  • 였늘의 μ§‘ A/B ν…ŒμŠ€νŠΈ ν”Œλž«νΌ ꡬ좕기



πŸ“Œ ν”„λ‘œμ νŠΈ 아이디어


  • μ–΄λ–€ 데이터λ₯Ό λŒ€μƒμœΌλ‘œν•  것인가?
    -> Kaggle λ“±λ“± μ°Έκ³ 

  • μ–΄λ””μ„œ κ·Έ 데이터λ₯Ό μΆ”μΆœν•  수 μžˆμ„κΉŒ?

  • κ·Έ λ°μ΄ν„°λ‘œ 무엇을 ν•΄λ³Ό 수 μžˆμ„κΉŒ?

  • 데이터

    • 주식 데이터
    • 주택 가격 데이터
    • 날씨 데이터
    • 곡곡 데이터 https://www.data.go.kr/


πŸ“Œ End-to-End 데이터 νŒŒμ΄ν”„λΌμΈμ˜ μ£Όμš” ꡬ성 μš”μ†Œ

1. 데이터 μˆ˜μ§‘ (Data Ingestion)

μ •μ˜: λ‹€μ–‘ν•œ μ†ŒμŠ€(예: λ°μ΄ν„°λ² μ΄μŠ€, API, μ›Ή, μ„Όμ„œ λ“±)μ—μ„œ 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: Apache Nifi, Apache Kafka, AWS Kinesis.
ν™œλ™: 둜그 파일 μˆ˜μ§‘, API 호좜, μ›Ή μŠ€ν¬λž˜ν•‘ 등을 톡해 데이터λ₯Ό κ°€μ Έμ˜΅λ‹ˆλ‹€.

2. 데이터 μ €μž₯ (Data Storage)

μ •μ˜: μˆ˜μ§‘λœ 데이터λ₯Ό μ €μž₯ν•˜μ—¬ 이후 처리 및 뢄석에 μ‚¬μš©ν•  수 μžˆλ„λ‘ μ€€λΉ„ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: κ΄€κ³„ν˜• λ°μ΄ν„°λ² μ΄μŠ€(SQL), NoSQL λ°μ΄ν„°λ² μ΄μŠ€(MongoDB, Cassandra), 데이터 레이크(HDFS, AWS S3).
ν™œλ™: λ°μ΄ν„°λ² μ΄μŠ€μ— 적재, 데이터 λ ˆμ΄ν¬μ— μ €μž₯.

3. 데이터 처리 및 λ³€ν™˜ (Data Processing & Transformation)

μ •μ˜: μ›μ‹œ 데이터λ₯Ό 뢄석 κ°€λŠ₯ν•œ ν˜•νƒœλ‘œ λ³€ν™˜ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: Apache Spark, Apache Beam, AWS Glue.
ν™œλ™: 데이터 ν΄λ Œμ§•, 결츑치 처리, 데이터 톡합 및 λ³€ν™˜, ETL(Extract, Transform, Load) μž‘μ—… μˆ˜ν–‰.

4. 데이터 뢄석 및 λͺ¨λΈλ§ (Data Analysis & Modeling)

μ •μ˜: 데이터λ₯Ό λΆ„μ„ν•˜μ—¬ μΈμ‚¬μ΄νŠΈλ₯Ό λ„μΆœν•˜κ³ , 예츑 λͺ¨λΈμ„ κ°œλ°œν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: Python (pandas, scikit-learn, TensorFlow, PyTorch), R.
ν™œλ™: 탐색적 데이터 뢄석(EDA), 톡계 뢄석, λ¨Έμ‹ λŸ¬λ‹ λͺ¨λΈ 개발 및 평가.

5. 데이터 μ‹œκ°ν™” 및 λ¦¬ν¬νŒ… (Data Visualization & Reporting)

μ •μ˜: 뢄석 κ²°κ³Όλ₯Ό μ‹œκ°ν™”ν•˜μ—¬ μ΄ν•΄ν•˜κΈ° μ‰½κ²Œ ν‘œν˜„ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: Tableau, Power BI, matplotlib, seaborn.
ν™œλ™: λŒ€μ‹œλ³΄λ“œ 생성, 리포트 μž‘μ„±, 데이터 μ‹œκ°ν™”.

6. λͺ¨λΈ 배포 및 운영 (Model Deployment & Operations)

μ •μ˜: 개발된 λͺ¨λΈμ„ μ‹€μ œ ν™˜κ²½μ— λ°°ν¬ν•˜μ—¬ μš΄μ˜ν•˜λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: Flask, FastAPI, Docker, Kubernetes, AWS SageMaker.
ν™œλ™: λͺ¨λΈμ„ API둜 배포, 지속적인 λͺ¨λ‹ˆν„°λ§ 및 μœ μ§€λ³΄μˆ˜.

7. 데이터 νŒŒμ΄ν”„λΌμΈ μžλ™ν™” (Automation)

μ •μ˜: 데이터 νŒŒμ΄ν”„λΌμΈμ˜ λͺ¨λ“  단계λ₯Ό μžλ™ν™”ν•˜μ—¬ νš¨μœ¨μ„±μ„ λ†’μ΄λŠ” κ³Όμ •μž…λ‹ˆλ‹€.
μ˜ˆμ‹œ 도ꡬ: Apache Airflow, Luigi, Prefect.
ν™œλ™: μž‘μ—… μŠ€μΌ€μ€„λ§, νŒŒμ΄ν”„λΌμΈ λͺ¨λ‹ˆν„°λ§ 및 관리.

0개의 λŒ“κΈ€