Azure Data Factory
Data Factory is Cloud-Based Data Integration Service
- orchestrate and automate data movement and transformation 을 할 수 있는 워크플로우를 클라우드에서 생성할 수 있게 해주는 서비스이다.
- data pipeline orchestration, 데이터를 연결하고 흐름을 제어하는 역할도 한다.
Azure Data Factory의 주요 개념
1) Pipeline
- A logical grouping of activities
활동들의 논리적인 그룹/집합
- A tool to monitor or schedule activities
2) Activities
- processing steps in a pipeline
- 3가지 유형의 activies : data movement, data transformation, control
- 활동들(activities)은 작업(task)을 수행한다.
예를 들어, 소스 수집부터 데이터 레이크에 넣는 일련의 활동들(activities)이 있다면, 활동들이 수행하는 작업(task)은 바로 '데이터 이동'이다.
3) Datasets
- data structures within the data stores (데이터 저장소 내의 데이터 구조)
- 입출력 데이터가 존재하는 곳
4) Linked Services
- connecting string needed to connect to data (접근해야 할 데이터를 가리키는 연결 문자열)
![Linked Services](https://velog.velcdn.com/images/hyojinnnnnan/post/eec863c8-1b88-4c94-b1d8-50a6dce6c568/image.png)
기본 아키텍처
![데이터 팩토리 아키텍처](https://velog.velcdn.com/images/hyojinnnnnan/post/cf171101-9c30-49ef-94f8-2613b4aa5275/image.png)