[DP-203] Data Ingestion and Transformation : Azure Data Factory

Becoming a Data Engineer ·2024년 3월 18일
0

Azure

목록 보기
20/27
post-thumbnail

Azure Data Factory, Azure Synapse Analytics, 그리고 Azure HDInsight

Azure Data Factory, ADF

  • 데이터를 추출, 변환 및 로드하는 파이프라인을 구성하는 데 사용된다.
  • ADF는 데이터 이동 및 변환 작업을 자동화하는 데 초점을 맞추고 있으며, 다양한 소스와 목적지를 지원한다.

Azure Synapse Analytics

  • 데이터 웨어하우징 및 빅데이터 분석을 위한 통합 분석 서비스이다.
  • SQL 데이터 웨어하우스 기능, 빅데이터 분석, 데이터 통합, 데이터 탐색 및 시각화를 지원한다.
  • Synapse는 ADF의 기능을 내장하고 있어 데이터 통합 작업을 수행할 수 있으며, 복잡한 분석 및 머신러닝 작업을 위한 환경을 제공한다.

Azure HDInsight

  • 클라우드에서 호스팅되는 대규모 데이터셋의 처리 및 분석을 위한 서비스이다.
  • 하둡, 스파크, 카프카 등을 포함한 다양한 빅데이터 프레임워크를 지원한다.

ADF 와 HDInsight

  • ADF 는 데이터를 다양한 소스에서 추출하여 HDInsight로 전송할 수 있는 파이프라인을 구성할 수 있다.
  • HDInsight 에서는 이 데이터를 분석하거나 처리한 후, 결과를 다시 ADF 를 통해 다른 데이터 스토어로 이동시킬 수 있다.

Synapse 와 HDInsight

  • Synapse는 빅데이터 분석 및 데이터 웨어하우스 기능을 통합하고 있으며, 필요에 따라 HDInsight 와 함께 사용될 수 있다.
    • 예를 들어, Synapse 내에서 복잡한 데이터 처리를 위해 HDInsight 의 스파크 클러스터를 사용할 수 있다.

ADF 주요 개념

이전 포스팅 : [DP-203] Azure Data Factory 개요

Pipeline

  • Logical grouping of activities
  • Activities perform a task

Activity ⭐

  • Processing steps in a pipeline
  • 3 types of activities
    • Data Movement
    • Data Transformation
    • Control

Datasets

  • Data structures within the data stores
  • Where the data you need for inputs or outputs lives

Linked Services

  • 데이터를 보유하고 있는 시스템에 연결하는 방법
  • Connection string needed to connect to data

ADF 의 Data Movement 와 Transformation

기본 내장 Data Flows

아래 2가지 모두 파이프라인 내에서 Activity로 실행된다.

  • Mapping Data Flow

    시각적 데이터 변환 도구로 사용자가 코드를 작성하지 않고도 데이터를 변환하고 정제할 수 있는 GUI 기반의 인터페이스를 제공한다. 이를 통해 사용자는 복잡한 ETL (Extract, Transform, Load) 작업을 시각적으로 설계하고 실행할 수 있다.

  • Data Wrangling

    Power Query를 기반으로 하며, 사용자가 대화형 방식으로 데이터를 탐색하고, 변환 규칙을 적용할 수 있게 해준다. 이는 복잡한 스크립팅이나 프로그래밍 없이도 데이터를 손쉽게 조작하고 준비할 수 있게 해준다.

External Transformations


Review

  • Mapping data flows and data wrangling(Power Query) allows you to build code-free transformations at cloud scale(자동으로 스케일되는 스파크 클러스터에 기본적으로 통합되어 있음).
  • There are a variety of external transformations that enable you to accomplish almost any task.
  • All of these execute as activities within a pipeline.
profile
I want to improve more 👩🏻‍💻

0개의 댓글

관련 채용 정보