In Azure Synapse Analytics, the data integration capabilities such as Synapse pipelines and data flows are based upon those of Azure Data Factory.
ADF | Synapse | |
---|---|---|
SSIS Activity | ○ | |
Power Query Activity | ○ | |
Monitoring of Spark Jobs for Data Flow | ○ | |
Azure Monitor Integration | ○ |
Monitoring of Spark Jobs for Data Flow
ADF에서는 데이터 흐름을 통한 변환 작업의 모니터링은 가능하지만, 아파치 스파크 잡 수준에서의 세부적인 모니터링은 제한적이다. 반면, 시냅스 애널리틱스에서는 스파크 잡에 대한 상세한 모니터링 및 분석 기능을 제공한다.
따라서, 스파크 잡의 세부 모니터링이 중요한 작업에는 시냅스 애널리틱스가 더 적합할 수 있다.
[ Azure Data Factory, ADF 와 Azure Synapse Analytics 에서의 데이터 처리 방식 ]
ADF에서의 데이터 플로우는 내부적으로 스파크 잡으로 변환되어 실행되는 반면, 시냅스는 스파크 기반의 분석과 SQL 기반의 데이터 웨어하우스 작업을 모두 지원하여 보다 다양한 데이터 처리 방식을 선택할 수 있게 한다.
ADF에서 데이터 플로우를 사용하여 구성한 데이터 변환 작업은, 실행 시 내부적으로 아파치 스파크 잡으로 변환되어 처리된다. 이는 ADF의 데이터 플로우 기능이 본질적으로 스파크 기반의 분산 처리 엔진을 활용하여 대규모 데이터 변환 작업을 효율적으로 수행하도록 설계되었기 때문이다. 즉, 사용자가 데이터 플로우를 통해 시각적으로 구성한 데이터 변환 로직은 자동으로 스파크 코드로 변환되어 실행된다.
애저 시냅스 애널리틱스에서는 더 유연한 데이터 처리 옵션이 제공된다. 시냅스는 아파치 스파크 기반의 분석 작업 뿐만 아니라, SQL 기반의 데이터 웨어하우스 작업도 지원한다. 이는 사용자가 스파크 잡을 명시적으로 작성하여 실행할 수도 있고, SQL 쿼리를 사용하여 데이터 웨어하우스 내에서 데이터 변환 작업을 수행할 수도 있음을 의미한다. 따라서, 시냅스에서의 데이터 처리 작업이 반드시 스파크 잡으로 변환되어 실행되는 것은 아니다. 작업의 유형에 따라 스파크 기반의 처리 방식을 선택할 수도 있고, SQL 기반의 처리 방식을 선택할 수도 있다.
ADF를 사용할지 Synpse를 사용할지는 어떤 용도로 사용하고 싶은가에 달려 있다.
Synapse Pipelines 은 주로 분석 프로젝트에 사용한다. Azure Synapse Analytics 를 모든 데이터와 분석 솔루션을 한데 모은 것으로 볼 수 있으며, Pipelines 는 그 중 일부에 불과하다.
Azure Data Factory 는 주로 ETL 및 마이그레이션 작업을 하고자 하는 경우 사용한다.
Azure Synapse Pipelines are built on the same technology as Azure Data Factory.
Azure Synapse Pipelines do not share all ADF features. Which tool you use will determined by your overall transformation and solution goals.