코드 작성 없이 마우스 클릭만으로 ETL/ELT 데이터 파이프라인을 배포할 수 있는 시각적 인터페이스로 CDAP라는 오픈소스 프로젝트를 기반으로 구축되었다.
Data Fusion API 활성화
기본 설정으로 생성해주고 필요하면 고급 옵션에서 Stackdriver 로깅, 모니터링 설정을 해줄 수도 있다.
그리고 Dataproc에 접근하는 서비스 계정을 설정해줘야 인스턴스를 생성할 수 있다. 기본적으로 Data Fusion은 실행 환경이 Dataproc이기 때문이다.
default 서비스 계정에 Dataproc작업을 실행하는 권한을 부여
인스턴스가 생성되는데 12~13분정도가 걸린다.
Data Fusion 웹 UI로 이동
HUB로 이동
여러 소스와 통합해서 파이프라인을 만들 수 있는 것을 확인할 수 있다.
Cloud Data Fusion Quickstart 클릭 후 create
NYT Best Sellers 샘플 데이터에 대한 파이프라인이 제공될 것이다.
배포
Run
결과 확인
파이프라인이 성공적으로 실행되면 빅쿼리에 새 dataset과 table이 생성된다.
여기선 샘플로 이미 소스데이터와 처리 과정, 싱크 모두 세팅되어 있는 파이프라인이 제공되어서 배포 클릭 버튼만 눌러 보았지만 다음 포스트에선 직접 Transform을 해볼 것이다. 그냥 UI에서 버튼으로 쉽게 ETL 파이프라인을 해볼 수 있다는 것만 알아두자