데이터 엔지니어링이란

Koo·2023년 8월 21일
post-thumbnail

1. Modern Data Ecosystem and Role of Data Engineer

데이터의 가치

  • 데이터의 정확도
  • 필요로 할 때 데이터에 접근할 수 있는 효율성

목표

  • 데이터(data)
  • 데이터 저장소(data storage)
  • 데이터 파이프라인(data pipeline)
  • 데이터 통합 플랫폼(data integration platform)
  • 빅데이터(big data)
  • 데이터 플랫폼(data platform)
  • 데이터 저장(data store)
  • ETL\cdotELT 과정(ETL\cdotELT process)
  • 데이터 보안(data security)
  • 데이터 프라이버시(data privacy)
  • 거버넌스 및 규정 준수(governance & compliance)

2. Modern Data Ecosystem

최신 데이터 생태계는 다음과 같은 형태를 나타냄

  • 연관된 네트워크(Interconnected Network)
  • 독립적인 네트워크(Independent Network)
  • 지속적으로 발전하는 엔티티(Continually Evolving Entities)

데이터 생태계는 다음을 포함

  • 분산된 데이터 소스로부터 데이터를 통합
  • 통찰력을 만드는 다양한 유형의 분석과 기술
  • 생성된 통찰력에 대해 협력하고 행동하는 적극적인 이해 당사자
  • 저장, 처리 및 배포하기 위한 툴, 애플리케이션, 인프라

데이터 소스

  • structured data와 unstructured data로 나뉨
  • 텍스트, 이미지, 비디오, 클릭 스트림, 사용자 대화, SNS, IoT, 스트리밍 데이터, 데이터 베이스 등 다양한 데이터 소스가 존재
  • 원본 데이터 소스를 복사한 후 데이터 저장소에 저장하는 과정이 필요
  • 데이터 소스를 가져올 때는 data format, 데이터 소스, 인터페이스 등을 통해 필요한 데이터만을 수집해야 한다
  • 데이터는 신뢰성, 보안 그리고 무결성을 가져야 함

데이터 저장소

  • 수집된 데이터는 다음과 같은 과정을 거침
    • organized
    • clean up
    • optimized for access
  • 데이터는 규정 및 표준을 준수해야 한다
    • 바이오 관련, 건강, IoT 등 ...
    • 조직의 모든 애플리케이션 및 시스템에서 표준화를 보장하기 위해 마스터 테이블을 생성
    • ...
  • 데이터 저장소는 가용성, 유연성, 접근성, 보안성을 가져야 함

데이터 사용자

수집된 데이터는 사용자에 맞게 제공되어야 한다

  • 비즈니스 이해관계자
    • 보고서나 대쉬보드를 필요로 함
  • 애플리케이션
    • 데이터에 접근하기 위해 custom API를 필요로 함
  • 데이터 분석
    • 원본 데이터를 필요로 함
  • 데이터 사이언스

→ 수집된 데이터는 인터페이스나 API, 애플리케이션 등을 통해 제공

3. Key Players in the Data Ecosystem

  • 데이터 엔지니어
    • 가공되지 않은 원본 데이터를 사용할 수 있도록 처리
  • 데이터 분석가
    • 가공된 데이터를 이용해 인사이트 제시
  • 데이터 사이언티스트
    • 데이터 분석과 데이터 엔지니어링을 이용해 모델을 개발하고 예측
  • 비즈니스 분석가(Business Analysts)・BI 분석가
    • 인사이트와 예측을 토대로 유리한 의사 결정을 수행

4. What is Data Engineer

  • 데이터 엔지니어의 주된 업무는 데이터 플로우(data flow)와 데이터 접근을 위한 매커니즘을 생성
  • 데이터를 기반으로 한 의사 결정을 위해 양질의 데이터를 만드는 것이 목표

데이터 수집

  • 여러 데이터 소스들로부터 데이터를 Extract, Integrate, Organize
  • 수집한 데이터를 저장하기 위한 data architecture 설계
    • 데이터베이스, 데이터웨어하우스, 데이터 레이크 등에 저장

데이터 처리

  • cleaning, transforming, preparing 등을 수행
  • 분산 시스템을 이용한 데이터 처리
  • ETL을 위한 데이터 파이프라인 구축
  • 품질 보호, 보안, 프라이버시를 위한 솔루션 제시
  • 성능 최적화
  • 데이터 거버넌스 및 규정 적용
  • ...

데이터 저장

  • 프라이버시, 보안, 데이터 규정, 모니터링, 백업, 회복 등을 수행
  • 신뢰성, 쉬운 접근성, 확장 가능성을 고려해야함

→ 데이터 엔지니어링의 범위가 워낙 넓기 때문에 혼자 모든 영역을 할 수 없고 다양한 팀을 구성해 문제를 해결해야 함

5. 요약

Modern Data Ecosystem은 다음으로 구성됨

  • 다양한 형식과 구조, 소스에서 사용할 수 있는 데이터
  • 최종 사용자가 사용할 수 있도록 구성, 정리 및 최적화할 수 있는 데이터 환경
  • 데이터를 소비하는 비즈니스 이해 관계자, 분석가, 프로그래머 등의 최종 사용자
  • 클라우드 컴퓨팅, ML, 빅데이터 등의 기술은 Data Ecosystem을 계속하여 발전시킴
  • 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트, BI 분석가들은 데이터를 이용해 데이터 생태계에서 인사이트와 가치를 창출하는 주 역할
  • 데이터 엔지니어의 목표는 의사결정을 위해 양질의 데이터를 만드는 것
  • 이것을 위해 데이터를 수집, 처리하여 사용 가능하게 하고 데이터를 안전하게 저장해야 함
profile
스터디를 해보자

0개의 댓글