Azure Data Factory, Azure Synapse Analytics, 그리고 Azure HDInsight
Azure Data Factory, ADF
- 데이터를 추출, 변환 및 로드하는 파이프라인을 구성하는 데 사용된다.
- ADF는 데이터 이동 및 변환 작업을 자동화하는 데 초점을 맞추고 있으며, 다양한 소스와 목적지를 지원한다.
Azure Synapse Analytics
- 데이터 웨어하우징 및 빅데이터 분석을 위한 통합 분석 서비스이다.
- SQL 데이터 웨어하우스 기능, 빅데이터 분석, 데이터 통합, 데이터 탐색 및 시각화를 지원한다.
- Synapse는 ADF의 기능을 내장하고 있어 데이터 통합 작업을 수행할 수 있으며, 복잡한 분석 및 머신러닝 작업을 위한 환경을 제공한다.
Azure HDInsight
- 클라우드에서 호스팅되는 대규모 데이터셋의 처리 및 분석을 위한 서비스이다.
- 하둡, 스파크, 카프카 등을 포함한 다양한 빅데이터 프레임워크를 지원한다.
![](https://velog.velcdn.com/images/hyojinnnnnan/post/a64f0b27-4bb8-4c71-a919-d57f8d8d5714/image.png)
ADF 와 HDInsight
- ADF 는 데이터를 다양한 소스에서 추출하여 HDInsight로 전송할 수 있는 파이프라인을 구성할 수 있다.
- HDInsight 에서는 이 데이터를 분석하거나 처리한 후, 결과를 다시 ADF 를 통해 다른 데이터 스토어로 이동시킬 수 있다.
Synapse 와 HDInsight
- Synapse는 빅데이터 분석 및 데이터 웨어하우스 기능을 통합하고 있으며, 필요에 따라 HDInsight 와 함께 사용될 수 있다.
- 예를 들어, Synapse 내에서 복잡한 데이터 처리를 위해 HDInsight 의 스파크 클러스터를 사용할 수 있다.
ADF 주요 개념
![](https://velog.velcdn.com/images/hyojinnnnnan/post/48637f89-487e-45ac-a6bf-5d0d3f2ceaf3/image.png)
Pipeline
- Logical grouping of activities
- Activities perform a task
Activity ⭐
- Processing steps in a pipeline
- 3 types of activities
- Data Movement
- Data Transformation
- Control
Datasets
- Data structures within the data stores
- Where the data you need for inputs or outputs lives
Linked Services
- 데이터를 보유하고 있는 시스템에 연결하는 방법
- Connection string needed to connect to data
기본 내장 Data Flows
아래 2가지 모두 파이프라인 내에서 Activity로 실행된다.
-
Mapping Data Flow
시각적 데이터 변환 도구로 사용자가 코드를 작성하지 않고도 데이터를 변환하고 정제할 수 있는 GUI 기반의 인터페이스를 제공한다. 이를 통해 사용자는 복잡한 ETL (Extract, Transform, Load) 작업을 시각적으로 설계하고 실행할 수 있다.
-
Data Wrangling
Power Query를 기반으로 하며, 사용자가 대화형 방식으로 데이터를 탐색하고, 변환 규칙을 적용할 수 있게 해준다. 이는 복잡한 스크립팅이나 프로그래밍 없이도 데이터를 손쉽게 조작하고 준비할 수 있게 해준다.
![](https://velog.velcdn.com/images/hyojinnnnnan/post/4edf2503-1c61-4271-a63c-ee3e52e52a3e/image.png)
Review
- Mapping data flows and data wrangling(Power Query) allows you to build code-free transformations at cloud scale(자동으로 스케일되는 스파크 클러스터에 기본적으로 통합되어 있음).
- There are a variety of external transformations that enable you to accomplish almost any task.
- All of these execute as activities within a pipeline.