6강. Day 1-5

data_hamster·2023년 5월 24일

학습주제
실리콘밸리 회사들의 데이터 스택 트렌드 (10개 회사)

조사 바탕

학습내용

데이터 플랫폼이 어떻게 발전해왔나
초기 단계: 데이터 웨어하우스 + ETL
발전단계: 데이터 양 증가에 따라 더이상 감당하지 못하는 단계 2가지 변화 필요.
1. 데이터 레이크 도입: 비구조화, 훨씬 큰 데이터를 경제적으로 보관
2. 이를 처리할 수 있는 빅데이터 프로세싱 프레임워크(스파크)
성숙단계: 데이터 활용 증대
시티즌 데이터 사이언티스트, 애널리스트. 직접 하려는 경향이 생김

ELT 단의 고도화가 필요. 데이터 품질 보장 피룡. DBT 도입
머신러닝 활용 유스케이스 증가. 얼마나 빨리 배포, 성능이 떨어지는지 모니터링. MLops같은 직군이 생김.
각 현업부서들이 직접 DW, ETL 구현

발전단계

데이터 양이 증가: 데이터 레이크 필요
로그데이터
데이터 레이크 -> 데이터 레이크로 적재
데이터 레이크 -> 데이터가 적고 고품질일 시, 데이터 웨어하우스 적재

이 유스케이스는 위의 세가지 형태가 있음

데이터 소스 -> ETL -> 데이터 웨어하우스
데이터 소스(굉장히 큼) -> 데이터 레이크
데이터 레이크 -> 데이터 웨어하우스
데이터 레이크 -> 데이터 레이크
데이터 웨어하우스 -> 데이터 웨어하우스

빅데이터 프레임워크를 필요로함(Spark, Hive, Presto)
Aws Athena가 있음

외부 -> 내부 ETL
내부 -> 내부 ELT

데이터 양이 커지기 때문에 데이터 레이크 같은 경제적이고 큰 스토리지
이를 처리하기 위한 Spark 필요

성숙단계

데이터 품질이 중요해짐
머신러닝 사용이 가속화됨
ELT 단에서 데이터의 품질이 중요해짐
다양한 테스트를 붙여야함.
DBT라는 툴을 사용(분석가, 엔지니어)
ELT: 앞 슬라이드와 같음. DL -> DL, DL -> DW, DW -> DW
MLOps직군 만들어 머신러닝 개발 전반을 책임짐. 모델 자체는 과학자가 만듦.
모니터링, 에스컬레이션