[Read & Ask] How Data engineering works?(Youtube)정리

이성진·2022년 1월 10일
0

Read-And-Ask

목록 보기
1/3

How Data engineering works?(Youtube)

데이터 엔지니어 역사를 잘 나타낸 유튜브 영상이다.

Question

  • 초기 데이터 엔지니어가 생겨난 이유
  • ETL에서 MySQL 대신 데이터 웨어하우스가 사용된 이유?
  • ELT가 필요해진 이유?
  • 데이터 엔지니어의 역할 변화

초기 데이터 엔지니어가 생겨난 이유

90년대에 데이터 분석을 위해 여러 개의 스프레드 시트에서 필요한 정보를 추출하여 하나로 묶고 작업했다. 매우 지루한 작업이고, 인적 오류가 발생할 가능성이 높았다. 이를 소프트웨어 엔지니어가 자동화 했다. 이 때 생겨난 시스템이 ETL 시스템이다.

ETL 시스템이란?

Extract(추출), Transform(변환), Load(적재)의 약자다. 스프레드시트 등 여러 경로에서 데이터를 추출하고, 구조화된 테이블로 저장한다. 저장된 데이터는 BI 툴을 이용해서 비개발 직군은 시각화 등의 지표로 사용 가능하다. 이를 통해 Data Driven한 의사결정이 가능해졌다.

ETL에서 MySQL 대신 데이터 웨어하우스를 사용하는 이유?

초창기에는 MySQL과 같은 Standard Transactional Database를 사용 했다. MySQL은 어플리케이션 운영 등에는 장점을 갖지만, 데이터 분석을 위한 복잡한 쿼리에는 적합하지 않다. 즉, 연속적인 트랜잭션 처리와 데이터 분석용 쿼리가 동시에 발생하기 때문에 느리다. 이에 따라 질의한 쿼리가 중간에 사라지거나 결과가 나오는데 수 분이 걸리기 시작했다.

대안으로 복잡한 쿼리에 강점을 갖는 데이터 웨어하우스를 사용하기 시작했다. 데이터 웨어하우스로 OLAP(온라인 분석 처리) 프레임워크를 사용한다. 즉, 여러 개의 대규모 과거 데이터 세트의 데이터를 결합하는 복잡한 쿼리를 빠르게 처리하는 데 최적화되어 있다.

ELT 시스템이 필요해진 이유?

데이터 사이언티스트가 필요해진 이후로 ELT가 필요해졌다. 기존에 데이터 웨어하우스에 저장된 데이터는 구조화(Structured)되어 있고, 각 조직에서 필요하다고 여겨지는 데이터만을 대상으로 했다.

데이터 사이언티스트는 데이터의 다양한 조합과 전처리 방식을 통해 의미있는 결과를 만든다. 따라서 기존에 비해 유연한 데이터 형식을 필요로 한다. 따라서 데이터 엔지니어는 다양한 소스로부터 데이터를 추출(Extract)하여 가공하지 않은 상태(Raw)로 데이터 레이크에 저장(Load)한다. 데이터 사이언티스트는 데이터 레이크 안에 저장된 데이터를 다양한 형식으로 변환(Transform)하여 ML 모델을 만든다.

데이터 엔지니어의 역할 변화

초창기(90s)에 데이터 엔지니어의 역할은 여러 스프레드 시트 등으로부터 데이터를 추출하여 적재하는 것을 자동화하는 것이었다. 이를 통해 비개발 직군의 팀원들은 자유를 얻었고, 새로운 스크립트를 작성할 데이터 엔지니어가 필요해졌다.

미래 예측을 목표로 하는 데이터 사이언티스트가 등장했고, 데이터 엔지니어는 두 개의 역할이 추가 됐다. 첫 번째는 데이터 사이언티스트의 일회성 미래 예측을 위해 제공할 데이터의 Custom-ETL을 생성하는 것이었다. 두 번째는 ELT를 통해 데이터 사이언티스트가 사용할 데이터 마트를 생성하는 것이었다.

0개의 댓글