운영 및 분석 데이터
스트리밍 데이터
영구, 실시간 데이터 피드
데이터 파이프라인
데이터 레이크
데이터 웨어하우스
데이터 레이크와 데이터 웨어하우스의 차이
"Data Lake is NOT Data Warehouse"
아파치 스파크
분산 데이터 처리를 위한 오픈 소스 엔진
데이터 레이크용 분산 클라우드 스토리지로 Azure Blob Storage에서 "계층형 네임스페이스" 를 활성화하면 ADLS Gen2가 생성된다.
ADLS Gen2가 데이터를 저장하는 곳은 "Azure Blob Storage에서 호스트되는 HDFS 호환 파일 시스템" 이다.
데이터 처리(data processing) 솔루션을 개발하는 데 사용되는 스크립트 및 기타 자산(assets)을 정의할 수 있다.
이 허브를 사용하여 데이터 수집(data ingestion) 및 통합 자산(integration assets)을 관리한다. 데이터 소스 간에 데이터를 전송하고 변환하는 파이프라인과 같은 것이다.
you can observe data processing jobs as they run and view their history.
여기에서 Azure Synapse workspace에서 사용되는 풀, 런타임 및 기타 자산을 관리합니다. Analytics pools 섹션에서 각 탭을 보고 workspace에 다음 풀이 포함되어 있는지 확인합니다.
Built-in: A serverless SQL pool
you can use on-demand to explore or process data in a data lake by using SQL commands.
데이터를 쿼리하는 가장 일반적인 방법 중 하나는 SQL을 사용하는 것이며, Synapse Analytics에서는 서버리스 SQL 풀을 사용하여 데이터 레이크의 데이터에 대해 SQL 코드를 실행할 수 있다.
A dedicated SQL pool
that hosts a relational data warehouse database.
지금까지 데이터 레이크에서 파일 기반 데이터를 탐색하고 처리하는 기술을 살펴보았습니다. 많은 경우, 엔터프라이즈 분석 솔루션은
데이터 레이크를 사용하여 비정형 데이터를 저장하고 준비한 다음
BI(비즈니스 인텔리전스) 워크로드를 지원하기 위해 관계형 데이터 웨어하우스에 로드할 수 있습니다.
Azure Synapse Analytics에서 이러한 데이터 웨어하우스는 전용 SQL 풀로 구현할 수 있다.
that you can use on-demand to explore or process data in a data lake by using programming languages like Scala or Python.
Synapse Analytics에서는 SPARK 풀 에서 Python(및 기타) 코드를 실행할 수 있다. Apache Spark를 기반으로 하는 분산 데이터 처리 엔진을 사용한다.
KQL(Kusto Query Language)을 사용하여 데이터를 분석하는 데 사용할 수 있는 데이터 Explorer풀