Cloud Data Fusion 사용해보기

김민형·2022년 8월 12일
1

GCP - Data

목록 보기
25/44

Data Fusion

코드 작성 없이 마우스 클릭만으로 ETL/ELT 데이터 파이프라인을 배포할 수 있는 시각적 인터페이스로 CDAP라는 오픈소스 프로젝트를 기반으로 구축되었다.

Data Fusion API 활성화

Data Fusion 인스턴스 생성

기본 설정으로 생성해주고 필요하면 고급 옵션에서 Stackdriver 로깅, 모니터링 설정을 해줄 수도 있다.

그리고 Dataproc에 접근하는 서비스 계정을 설정해줘야 인스턴스를 생성할 수 있다. 기본적으로 Data Fusion은 실행 환경이 Dataproc이기 때문이다.

default 서비스 계정에 Dataproc작업을 실행하는 권한을 부여

인스턴스가 생성되는데 12~13분정도가 걸린다.
Data Fusion 웹 UI로 이동

HUB로 이동


여러 소스와 통합해서 파이프라인을 만들 수 있는 것을 확인할 수 있다.

파이프라인 생성

Cloud Data Fusion Quickstart 클릭 후 create


NYT Best Sellers 샘플 데이터에 대한 파이프라인이 제공될 것이다.
배포

Run

결과 확인

파이프라인이 성공적으로 실행되면 빅쿼리에 새 dataset과 table이 생성된다.

여기선 샘플로 이미 소스데이터와 처리 과정, 싱크 모두 세팅되어 있는 파이프라인이 제공되어서 배포 클릭 버튼만 눌러 보았지만 다음 포스트에선 직접 Transform을 해볼 것이다. 그냥 UI에서 버튼으로 쉽게 ETL 파이프라인을 해볼 수 있다는 것만 알아두자

profile
Solutions Architect (rlaalsgud97@gmail.com)

0개의 댓글