1. Introduction to Data Engineering

ggam26·2021년 2월 15일
0

데이터 처리 3요소


ETL : Extract(추출), Transform(변환), Load(적재)의 앞글자를 딴 용어

빅데이터 처리 방식

  1. Real-Time Processing (실시간 처리)
    Streaming Data
  2. Distributed Processing (분산 처리)
    여러 컴퓨터를 사용
    *마스터 컴퓨터가 죽으면 전체가 죽음

컴퓨팅 파워를 늘리는 방법

scale-out : 접속한 서버의 수를 늘리는 것(병렬적)
scale-up : 서버의 수를 늘리는 것이 아니라 단일 시스템 내부에서 CPU, 메모리, 디스크 등을 추가하는 것(수직적)

=>scale-out이 더 적은 비용 발생!

데이터 처리 과정

데이터 파이프라인 : 데이터 처리 컴포넌트들이 연속되어 있는 것

  • 컴포넌트들은 비동기적으로 동작한다.
  • 각 컴포넌트는 완전히 독립적이다.
  • 각 컴포넌트는 데이터를 처리한 결과를 다음 컴포넌트로 보낸다.

데이터 사이언스

  • Data Engineering
    ->Data Pipeline + Data Service
  • Data Analysis
    ->Statistical Analysis + ML/DL
  • Data Visualization
    ->Business Intelligence

데이터 엔지니어


출처 :https://www.oreilly.com/radar/data-engineers-vs-data-scientists/

0개의 댓글