다양한 데이터 소스에서 원시 데이터를 수집한 다음 분석을 위해 데이터 레이크 또는 데이터 웨어하우스와 같은 데이터 저장소로 이전하는 방법.
데이터는 저장소로 이동전 데이터 처리 과정을 거쳐 저장을 하여 탐색형 데이터 분석, 데이터 시각화, 머신 러닝 작업에 활용 할 수 있도록 하는것.
데이터 파이프라인에는 일괄 처리(batch processing)와 스트리밍 데이터(streaming data)의 두 가지 주요 유형이 있습니다.
일괄 처리 (batch Processing)
batch는 미리 설정된 시간에 일괄적으로 로드하여, 대용량 데이터를 처리 할 수 있겠끔 하는 일괄 처리 방식
장점으로는 안정성이 높음.
스트리밍 데이터(streaming data)
일괄 처리와 달리, 데이터를 지속적으로 업데이트 할 때 활용됨. 예로 POS(point of Sale) 시스템은 제품의 실시간 재고 여부가 필요하기 때문에 실시간 데이터가 필요함. 필요에 따라 선택 가능
장점으로는 지연시간 짧음.
CAPTURE -> PROCESS -> STORE -> ANALYZE -> USE
1. CAPTURE (데이터 수집)
2. PROCESS (데이터 처리)
Hadoop 이란?
대용량의 데이터를 적은 비용으로 빠르게 분석할 수 있도록 하는 플랫폼
빅데이터 처리와 분석을 위해 사실상 표준으로 사용되는 영향력 있는 플랫폼
3. STORE (저장)
4. Analyze (분석)
5. USE (데이터 사용 및 시각화)
1) 데이터 사용
데이터 웨어하우스에 데이터가 있으면 Tesorflow, AI Platform을 통해 활용 가능.
2) 데이터 시각화
https://www.freecodecamp.org/news/scalable-data-analytics-pipeline/
Cloud Data Fusion이란?
데이터 파이프라인을 신속하게 빌드 및 관리하기 위한 완전 관리형 클라우드 기반의 기업 데이터 통합 서비스
대표기능
데이터 통합기능
메타데이터 모델링
How to Build a Scalable Data Analytics Pipeline: https://www.freecodecamp.org/news/scalable-data-analytics-pipeline/
All the products mentioned in this section are described here:
Pub/Sub https://www.youtube.com/watch?v=JrKEErlWvzA&list=PLTWE_lmu2InBzuPmOcgAYP7U80a87cpJd
BigQuery Data Transfer Service https://cloud.google.com/bigquery-transfer/docs/introduction
Storage Transfer Service https://cloud.google.com/storage-transfer-service
Cloud IoT Core https://cloud.google.com/blog/topics/developers-practitioners/what-cloud-iot-core
Cloud Dataflow https://cloud.google.com/blog/topics/developers-practitioners/dataflow-backbone-data-analytics
Dataproc https://medium.com/google-cloud/all-you-need-to-know-about-google-cloud-dataproc-23fe91369678
Dataprep https://cloud.google.com/blog/topics/developers-practitioners/google-cloud-dataprep-trifacta-cheat-sheet
Bigquery https://cloud.google.com/blog/topics/developers-practitioners/query-big-bigquery-cheat-sheet
Data analytics design patterns https://cloud.google.com/architecture/reference-patterns/overview