[Data Engineering]ch1. Understanding Data Engineering

망고 언니·2024년 3월 15일

Understanding Data Engineering

1. 데이터 엔지니어가 하는 일

  • 방대한 양의 데이터를 처리하고 처리하기 위해 데이터베이스,대규모 처리 시스템 등의 아키텍처를 개발, 구축, 테스트 및 유지 관리합니다. 
  • 빅데이터는 규모별로 보면 주로 센서 및 기기 데이터, 소셜미디어 데이터, 기업 데이터, VoIP 데이터로 구성된다.

2. 데이터 워크플로우

1) 데이터 수집 및 저장 2) 데이터준비 3)탐색 및 시각화 4)실험과 예측
데이터 엔지니어 1 / 데이터 분석가 or 데이터사이언티스트 2,3,4

[출처. datacamp]

3. 데이터 엔지니어와 데이터 사이언스 혹은 분석가의 업무


[출처. datacamp]

4. 데이터 엔지니어가 고려해야할 점

  1. 볼륨(데이터 포인트의 양)
  2. 다양성(데이터 유형 및 성격: 텍스트, 이미지, 비디오, 오디오)
  3. 속도(데이터가 생성되고 처리되는 속도)
  4. 진실성(소스가 얼마나 신뢰할 수 있는지) 및 가치(데이터가 얼마나 실행 가능한지)

추가)
데이터 사이언티스트가 최신의 정확한 관련 데이터를 사용할 수 있도록 한 스테이션에서 다음 스테이션으로의 흐름을 효율적으로 자동화하는 데이터 파이프라인이 필요

5. 데이터 파이프라인 ETL

E :extract / Source에 접근을 해서 데이터를 추출해 오는 단계

  • 관계형 및 비 관계형 데이터베이스
  • 플랫 파일(예:. XML, JSON, CSV 등등)
  • CRM 및 ERP 시스템
  • API
  • 인터넷 사이트
  • 시스템 로그 및 메타데이터

T : Transform extracted data / 추출이 된 데이터를 목표한 저장공간에 보내기 위해 변환하는 단계

  • 구조화되지 않은 데이터를 구조화된 형식으로 정리
  • 추출한 데이터에 필터링
  • 데이터 유효성 검사
  • 데이터를 정렬
  • 여러 테이블을 함께 조인
  • 중복 레코드를 제거

L: Load transformed data to another database
추출과 그리고 변환이 끝난 데이터들을 Target Repository에 저장하는 단계

--> 결론 : 다양한 소스에 존재하는 데이터를 데이터 저장소에 수집하고, 이를 사용자들의 용도에 맞게, 데이터를 변형하고 사용 가능한 곳으로 옮기는 프로세스

ETL은 데이터가 저장되기 전에 처리 

일반적으로 데이터 파이프라인은 한 시스템에서 다른 시스템으로 데이터를 이동
ex) 데이터는 변환되지 않고 시각화 도구나 Salesforce와 같은 애플리케이션으로 직접 라우팅될 수 있음

profile
안녕하세요. DBA 망고언니입니다.

0개의 댓글