[Coursera][Data Engineering on Google Cloud Platform specialization]

Carvin·2020년 12월 21일
2
post-thumbnail

구글 머신러닝 부트캠프의 수료 조건 중 하나로는 자격증 취득이 있습니다. 데이터 엔지니어링에 관심이 있던 저에게는 GCP관련 자격증인 GCP Professional Data EngineerGCP Professional Machine Learning Engineer 가 눈에 들어왔습니다.

당연히 2개 모두 취득하고 싶었지만 생각보다 난이도가 있다는 것을 알게 되었고, 특히 ML Engineer의 경우에는 이제 막 생긴 자격증이기 때문에 참고 자료가 굉장히 부족하다는 것을 알게 되었습니다. 일단 두 자격증이 모두 데이터 엔지니어링에 대한 기본적인 개념이 포함되기 때문에 공통적인 부분을 공부하고 추후에 방향을 정하려고 했습니다.

두 자격증은 기본적으로 데이터 엔지니어링에 대한 기초 지식을 기반으로 하고 있기에 겹치는 내용이 있었습니다. 두 자격증에 대한 Google 홈페이지에 나와있는 내용은 다음과 같습니다.


  • GCP Professional Data Engineer
    Professional Data Engineer는 데이터를 수집, 변환 및 게시하여 데이터 중심 의사 결정을 지원한다. 데이터 엔지니어는 보안 및 규정 준수, 확장성 및 효율성, 안정성 및 정확도, 유연성과 이식성에 기반하여 데이터 처리 시스템을 설계, 구축, 운영, 보안 및 모니터링할 수 있어야 한다. 또한 데이터 엔지니어는 기존의 기계 학습 모델을 학습하고, 배포하고, 활용할 수 있어야 한다.

    • Design data processing systems
    • Build and operationalize data processing systems
    • Operationalize machine learning models
    • Ensure solution quality
  • Professional Machine Learning Engineer
    Professional Machine Learning Engineer는 Google Cloud 기술과 검증된 ML 모델 및 기술에 대한 지식을 활용하여 비즈니스 과제를 해결하기 위해 ML 모델을 설계 및 구축하고 생산한다. ML Engineer는 모델 아키텍처, 데이터 파이프라인 상호 작용 및 성능 지표 해석의 모든 측면에 능숙해야하며 애플리케이션 개발, 인프라 관리, 데이터 엔지니어링 및 보안에 대한 경험 또한 요구된다.

    • Frame ML problems
    • Architect ML solutions
    • Prepare and process data
    • Develop ML models
    • Automate & orchestrate ML pipelines
    • Monitor, optimize, and maintain ML solutions

이 2개의 GCP 자격증이 추구하는 목표는 조금 다르지만, 데이터 엔지니어링에 대한 기본적인 개념과 내용을 공유하고 있습니다. 특히 Coursera의 Data Engineering on Google Cloud Platform specialization에서 GCP 자격증을 위한 데이터 엔지니어링 강의를 제공하고 있기에 먼저 해당 강의를 듣기로 결정했습니다.

Data Engineering on Google Cloud Platform specialization

🗂 목차

  • 1st Course: Google Cloud Platform Big Data and Machine Learning Fundamentals

  • 2nd Course: Modernizing Data Lakes and Data Warehouses with GCP

  • 3rd Course: Building Batch Data Pipelines on GCP

  • 4th Course: Building Resilient Streaming Analytics Systems on GCP

  • 5th Course: Smart Analytics, Machine Learning, and AI on GCP

  • 6th Course: Preparing for the Google Cloud Professional Data Engineer Exam

1. Google Cloud Platform Big Data and Machine Learning Fundamentals

해당 과정에서는 Google Cloud Platform(GCP)의 빅데이터 기능을 소개한다. presentations, demos, 그리고 hands-on labs를 사용함으로써 GCP 개요와 data processing, 그리고 머신러닝에 대한 구체적인 지식에 대해 얻을 수 있다. 또한 GCP의 빅데이터 solution의 용이성, 유연성 및 강력한 기능에 대해서 보여준다.

2. Modernizing Data Lakes and Data Warehouses with GCP

data pipeline의 중요한 2가지 구성요소는 data lake와 warehouse이다. 이 과정은 각 저장소의 유형에 대한 사용 사례를 다루며, GCP에서 아용 가능한 data lake와 warehouse에 대해 기술적으로 자세히 설명한다. 또한 데이터 엔지니어의 역할과 data pipeline이 비즈니스 운영에 미치는 이점에 대해 설명하고 Cloud 환경에서 데이터 엔지니어링이 수행되어야 하는 이유에 대해 살펴본다. Qwiklabs를 사용하여 GCP의 data lake와 warehouse를 실습할 수 있게 된다.

3. Building Batch Data Pipelines on GCP

data pipeline은 일반적으로 ETL, Extract/Tranform/Load라는 패러다임을 말한다. 이 과정에서 ETL의 어떤 과정이 사용되어야 하고 batch를 언제 설정해야하는 지에 대해 설명한다. 나아가서, BigQiery, Cloud Dataproc에서의 Spark 실행, Cloud Data Fusion의 파이프라인 그래프, Cloud Dataflow를 통한 serverless 데이터 처리 등 데이터 변환을 위한 GCP의 여러 기술에 대해 다룬다. Qwiklabs를 사용하여 GCP에서 data pipeline의 구성요소를 구축하는 실습을 할 수 있다.

4. Building Resilient Streaming Analytics Systems on GCP

스트리밍을 통해 비즈니스 운영에 대한 실시간 지표를 얻을 수 있기 때문에 스트리밍 데이터 처리가 점점 더 인기를 얻고 있다. 이 과정에서는 GCP에서 스트리밍 data pipeline을 구축하는 방법에 대해 설명한다. Cloud Pub/Sub은 발생하는 스트리밍 데이터를 처리하기 위해 설명한다. 또한 Cloud Dataflow는 발생하는 스트리밍 데이터에 집계 및 변환을 적용하는 방법, 처리된 데이터를 BigQuery 또는 Cloud Bigtable에 저장하여 분석하는 방법에 대해서도 설명한다. QwikLabs를 사용하여 GCP에서 스트리밍 데이터 파이프라인 구성 요소를 직접 구축해 볼 수 있다.

5. Smart Analytics, Machine Learning, and AI on GCP

머신러닝을 data pipeline에 통합하면 기업이 그들의 데이터에서 인사이트를 추출하는 비즈니스적 능력을 향상시킬 수 있다. 이 과정에서는 필요한 사용자 정의 수준에 따라 머신러닝을 GCP의 data pipeline에 포함할 수 있는 몇 가지 방법에 대해 설명한다. 커스터마이징이 필요없게 AutoML에 대해서도 다룬다. 보다 맞춤화된 머신러닝 기능을 위해, AI Platform Notebooks과 BigQuery Machine Learning을 소개한다. 또한 Kubeflow를 사용하여 머신러닝 솔루션을 생산화하는 방법에 대해 설명한다. QwikLabs를 사용하여 GCP에서 머신러닝 모델을 직접 구축한 경험을 얻을 수 있다.

0개의 댓글