Data Engineering Basic

Let's Just Go·2022년 10월 9일

Data Engineering

목록 보기

1/3

Data Engineering Tools
- 소스
  - 비즈니스와 운영 데이터 생성
  - Log, DataBase
- 수집 및 변환
  - 운영 시스템에서 데이터 추출, 추출된 데이터를 저장하고 스키마 관리, 데이터를 분석할 수 있도록 변환
  - Spark, Pandas, Kafka, Flink, Airflow
- 저장
  - 데이터를 쿼리와 처리 시스템이 쓸 수 있도록 저장, 비용과 확장성면으로 최적화
  - Parquet, HDFS
- 과거, 예측
  - 데이터 분석을 위한 인사이트 만들기
  - 저장된 데이터를 이용해 쿼리를 실행하고 필요 시 분산처리
  - 과거에 무슨일이 일어났는지 혹은 미래에 무슨일이 일어날지
  - Tensorflow, Pytorch, SparkML
- 출력
  - 데이터 분석을 내부와 외부 유저에게 제공, 데이터 모델을 운영 시스템에 적용
  - Tableau, Looker

Spark
- 빅데이터 처리를 위한 오픈소스 고속 분산처리 엔진
- spark는 연산 엔진
- Spark가 빠른 이유는 In-memory 연산이 가능하다는 뜻
메모리 연산 속도
- CPU, L1 Cache, L2 Cache, L3 Cache, RAM, HDD/SDD 순으로 연산 속도가 빠름
Resilient Distributed Dataset(RDD)
- 탄력적 분산 데이터 셋
- Spark의 핵심 데이터 모델로써 여러 분산 노드에 걸쳐서 저장되고 변경이 불가능
- 특징
  - 데이터 추상화
    - 데이터는 클러스터에 흩어져있지만 하나의 파일인 것처럼 사용 가능
  - Resilient & Immutable
    - 탄력적이고 불변하는 성질
    - 문제가 발생하여 여러 노드 중 하나가 망가지게 되어도 복원을 할 수 있음
  - Type-safe
    - 컴파일 시 Type을 판별할 수 있어 문제를 일찍 발견할 수 있음
  - UnStructured / Structured Data
    - 비정형 / 정형 데이터를 모두 담을 수 있음
  - Lazy
    - Action을 할 때 까지 변환은 실행되지 않음
    - 즉 Action을 하지 않으면 그전에 수없이 많은 Transform을 해도 실행이 안됨

안녕하세요! 공부한 내용을 기록하는 공간입니다.