1. Modern Data Ecosystem and Role of Data Engineer
데이터의 가치
- 데이터의 정확도
- 필요로 할 때 데이터에 접근할 수 있는 효율성
목표
- 데이터(data)
- 데이터 저장소(data storage)
- 데이터 파이프라인(data pipeline)
- 데이터 통합 플랫폼(data integration platform)
- 빅데이터(big data)
- 데이터 플랫폼(data platform)
- 데이터 저장(data store)
- ETL⋅ELT 과정(ETL⋅ELT process)
- 데이터 보안(data security)
- 데이터 프라이버시(data privacy)
- 거버넌스 및 규정 준수(governance & compliance)
2. Modern Data Ecosystem
최신 데이터 생태계는 다음과 같은 형태를 나타냄
- 연관된 네트워크(Interconnected Network)
- 독립적인 네트워크(Independent Network)
- 지속적으로 발전하는 엔티티(Continually Evolving Entities)
데이터 생태계는 다음을 포함
- 분산된 데이터 소스로부터 데이터를 통합
- 통찰력을 만드는 다양한 유형의 분석과 기술
- 생성된 통찰력에 대해 협력하고 행동하는 적극적인 이해 당사자
- 저장, 처리 및 배포하기 위한 툴, 애플리케이션, 인프라
데이터 소스
- structured data와 unstructured data로 나뉨
- 텍스트, 이미지, 비디오, 클릭 스트림, 사용자 대화, SNS, IoT, 스트리밍 데이터, 데이터 베이스 등 다양한 데이터 소스가 존재
- 원본 데이터 소스를 복사한 후 데이터 저장소에 저장하는 과정이 필요
- 데이터 소스를 가져올 때는 data format, 데이터 소스, 인터페이스 등을 통해 필요한 데이터만을 수집해야 한다
- 데이터는 신뢰성, 보안 그리고 무결성을 가져야 함
데이터 저장소
- 수집된 데이터는 다음과 같은 과정을 거침
- organized
- clean up
- optimized for access
- 데이터는 규정 및 표준을 준수해야 한다
- 바이오 관련, 건강, IoT 등 ...
- 조직의 모든 애플리케이션 및 시스템에서 표준화를 보장하기 위해 마스터 테이블을 생성
- ...
- 데이터 저장소는 가용성, 유연성, 접근성, 보안성을 가져야 함
데이터 사용자
수집된 데이터는 사용자에 맞게 제공되어야 한다
- 비즈니스 이해관계자
- 애플리케이션
- 데이터에 접근하기 위해 custom API를 필요로 함
- 데이터 분석
- 데이터 사이언스
→ 수집된 데이터는 인터페이스나 API, 애플리케이션 등을 통해 제공
3. Key Players in the Data Ecosystem
- 데이터 엔지니어
- 가공되지 않은 원본 데이터를 사용할 수 있도록 처리
- 데이터 분석가
- 데이터 사이언티스트
- 데이터 분석과 데이터 엔지니어링을 이용해 모델을 개발하고 예측
- 비즈니스 분석가(Business Analysts)・BI 분석가
- 인사이트와 예측을 토대로 유리한 의사 결정을 수행
4. What is Data Engineer
- 데이터 엔지니어의 주된 업무는 데이터 플로우(data flow)와 데이터 접근을 위한 매커니즘을 생성
- 데이터를 기반으로 한 의사 결정을 위해 양질의 데이터를 만드는 것이 목표
데이터 수집
- 여러 데이터 소스들로부터 데이터를 Extract, Integrate, Organize
- 수집한 데이터를 저장하기 위한 data architecture 설계
- 데이터베이스, 데이터웨어하우스, 데이터 레이크 등에 저장
데이터 처리
- cleaning, transforming, preparing 등을 수행
- 분산 시스템을 이용한 데이터 처리
- ETL을 위한 데이터 파이프라인 구축
- 품질 보호, 보안, 프라이버시를 위한 솔루션 제시
- 성능 최적화
- 데이터 거버넌스 및 규정 적용
- ...
데이터 저장
- 프라이버시, 보안, 데이터 규정, 모니터링, 백업, 회복 등을 수행
- 신뢰성, 쉬운 접근성, 확장 가능성을 고려해야함
→ 데이터 엔지니어링의 범위가 워낙 넓기 때문에 혼자 모든 영역을 할 수 없고 다양한 팀을 구성해 문제를 해결해야 함
5. 요약
Modern Data Ecosystem은 다음으로 구성됨
- 다양한 형식과 구조, 소스에서 사용할 수 있는 데이터
- 최종 사용자가 사용할 수 있도록 구성, 정리 및 최적화할 수 있는 데이터 환경
- 데이터를 소비하는 비즈니스 이해 관계자, 분석가, 프로그래머 등의 최종 사용자
- 클라우드 컴퓨팅, ML, 빅데이터 등의 기술은 Data Ecosystem을 계속하여 발전시킴
- 데이터 엔지니어, 데이터 분석가, 데이터 사이언티스트, BI 분석가들은 데이터를 이용해 데이터 생태계에서 인사이트와 가치를 창출하는 주 역할
- 데이터 엔지니어의 목표는 의사결정을 위해 양질의 데이터를 만드는 것
- 이것을 위해 데이터를 수집, 처리하여 사용 가능하게 하고 데이터를 안전하게 저장해야 함