Data Engineering in Python

Copes·2022년 10월 22일
0

목차

  • Data Trend 2022
    - Landscape
    - ELT
    - Lake House
  • Data Engineering in Python
    - Ecosystem(Spark, Pandas, Apache Arrow)
    - AI/ML 동향
  • ELT
    - Extract -> Load -> Transform
    - 데이터의 변경, 용량이 크더라도, 가공이 어렵더라도 가능한한 원본 데이터를 최대한 적재. (적재할 수 있는 데이터의 폭이 넓어진다.)

ETL vs ELT

LakeHouse

Data Lake, Data Warehouse가 별개의 개념이었는데 이를 LakeHouse라는 하나의 대상으로 묶음.(데이터 레이크 -> Data Mart or DW를 자연스러운 흐름으로 변경)
예시) Google Cloud

기타

Pandas API를 Spark에서 사용 가능. (기존 DataFrame 형태를 to_pandas_on_spark()를 통해 수행 가능)
Airflow Modern UI

  • Cleanroom

AI/ML

  • Shap (Data Display Library)
  • Data Drift and Detection
    Feature의 분포 -> Model의 이상점, 추가적인 Action들을 살펴보기 위함
  • Feature Store
    ex) Feast(Feature Store For Machine Learning
    Model Serving, Training을 하나의 시스템으로 일원화시킨다.

0개의 댓글