# dataflow

22개의 포스트
post-thumbnail

Dataflow를 사용한 S3 to BigQuery 파이프라인 구축

일회성 마이그레이션이나 멀티 클라우드 환경을 쓰고 있지 않는 이상 클라우드간 네트워크 송신 비용이 나가기 때문에 이런 케이스가 많이 있는 편은 아니다.아래와 같은 csv파일에서 각 user_id에 대해 전송된 total amount를 계산해볼 것이다. user_id가

2022년 10월 21일
·
0개의 댓글
·
post-thumbnail

Dataflow 템플릿 커스텀해보기

빅쿼리 데이터 세트 생성timestamp, INT/FLOAT 유형의 컬럼, STRING 유형의 컬럼을 가지는 테이블 생성Dataflow가 동작하는 스테이지의 파일을 저장할 Cloud Storage 버킷 생성ps_to_bq.py실행콘솔에서 Pub/Sub 주제에 직접 메시

2022년 9월 29일
·
0개의 댓글
·
post-thumbnail

Datastream을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

Datastream은 사용이 간편한 서버리스 CDC(변경 데이터 캡처) 및 복제 서비스.지연 시간을 최소화하면서 이기종 데이터베이스와 애플리케이션에서 데이터를 안정적으로 동기화할 수 있다.Datastream은 Oracle 및 MySQL,PostgreSQL 데이터베이스에

2022년 9월 27일
·
0개의 댓글
·
post-thumbnail

Twitter API를 사용한 스트리밍 파이프라인 구축

우선 Twitter API를 통해 ACCESS 및 Bearer Token 등을 받아온 상태여야 한다.이 키가 내 트위터 계정에 대한 정보를 잘 받아오는 지 확인하려면 아래 명령어를 실행시켜보면 된다.잘 받아오는 것 확인.그리고 GCP 콘솔에서 아래 리소스들을 생성해준다

2022년 9월 26일
·
0개의 댓글
·
post-thumbnail

Cloud Scheduler를 사용한 Pub/Sub to BigQuery 스트리밍 파이프라인 구축

Dataflow의 Pub/Sub Topic to BigQuery 템플릿을 사용해 스트리밍 파이프라인을 구축할 것이다.Pub/Sub으로 메시지를 게시하는 것은 우선 Cloud Scheduler를 사용하였다.Pub/Sub 주제를 하나 기본 구독을 하나 추가해서 만들어준다.

2022년 9월 22일
·
0개의 댓글
·
post-thumbnail

Cloud DLP와 Dataflow를 사용한 데이터 마스킹

Cloud DLP는 민감한 정보가 포함된 것으로 의심되는 모든 데이터에 대해 검사 및 익명화를 제공하는 Google Cloud 도구Cloud DLP는 InfoType을 사용하여 문서 내에서 발견될 수 있는 민감한 데이터를 인식한다. InfoType은 특정 유형의 데이터

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

Dataflow(Apache Beam) 간단 문법

Dataflow는 Apache Beam을 기반으로 한다.Python 말고 다른 언어(Java, Go)를 알고 싶으면 Apache Beam 프로그래밍 가이드 -> 참고아파치 빔을 기반으로 하기 때문에 import 역시 'apache_beam'을 import에서 사용한다.

2022년 9월 20일
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용한 Kafka to BigQuery 스트리밍 파이프라인 구축

우분투 VM 하나 생성 후 아래 명령어 차례로 입력Apache Kafka 다운로드kafka와 zookeeper를 systemctl 명령을 사용하여 시작/중지하도록 설정zookeeper아래의 내용 추가kafka아래의 내용 추가새로운 변경사항을 적용하기 위해 systemd

2022년 9월 16일
·
0개의 댓글
·
post-thumbnail

Dataflow SQL을 사용한 스트리밍 파이프라인 구축

Dataflow SQL을 사용해 Pub/Sub 스트리밍 데이터를 BigQuery 테이블 데이터와 join해볼 것이다.빅쿼리에 데이터 세트를 만들어주고 us_state_salesregions 테이블을 만들어준다.us_staste_salesregions.csv이 csv파일

2022년 9월 2일
·
0개의 댓글
·
post-thumbnail

22-08-02 Dataflow, Apache Beam / Okta Custom Domain 셋팅

를 살펴보는 중중간의 Pipelines에 Cloud Dataflow가 있다.오잉, Pipeline은 Cloud Composer(Airflow)로 하는게 아닌가? 싶었는데 Airflow는 Workflow용이라 Dataflow가 Pipeline이라 구분이 되는 듯https

2022년 8월 29일
·
0개의 댓글
·
post-thumbnail

Cloud Composer - Dataflow를 사용한 ETL 파이프라인 구축

DataflowTemplateOperator를 사용하여 Cloud Composer에서 Dataflow 파이프라인을 실행해볼 것이다.Composer 환경을 생성하는데 Composer 버전이 1.9이상이어야 해서 Composer2 버전으로 만들어줬다.average_weat

2022년 8월 11일
·
0개의 댓글
·
post-thumbnail

Cloud Dataprep 사용해보기

Cloud Dataprep은 간단한 드래그 앤 드롭 브라우저 환경에서 데이터를 시각적으로 탐색 및 정리하고 분석이 가능하도록 여러 데이터 세트를 준비하는 데 활용되는 지능형 데이터 서비스이다.데이터를 내 입맛대로 바꾸면 내부에서 Dataflow를 통해서 데이터를 변경한

2022년 8월 3일
·
0개의 댓글
·
post-thumbnail

Video Intelligence API를 사용한 스트리밍 영상 분석 파이프라인 구축

api사용 설정사용할 변수 설정사용할 깃허브 저장소 clonepub/sub 주제 생성주제에 대한 pub/sub 구독 생성동영상 클립을 저장할 버킷 생성bucket용 pub/sub알림 생성데이터 세트 생성테이블 생성주제 생성구독 생성주제 생성구독 생성Apache Beam

2022년 6월 19일
·
0개의 댓글
·
post-thumbnail

Dataproc & Dataflow

배치처리, 쿼리, 스트리밍,머신러닝을 managed해주는 구글클라우드의 Hadoop상품이라고 생각하면 된다.각 노드에 있는 디스크를 하나인 것처럼 클러스터링하여 사용할 수 있는것HDFS(Hadoop Distributed File System)에 데이터가 분산 저장된다.

2022년 6월 9일
·
0개의 댓글
·
post-thumbnail

spring cloud data 사용시 task-job연관관계 설정 안되는 현상

dataflow를 사용하기 위해서 대시보드를 구성했었는데, 배치를 실행하다가 실패한 이후로 Job executions메뉴에 들어가지지 않았다. 서버에 들어가보니 아래같은 에러가 남아있었다.따로 설정을 변경하거나 한적은 없는데 왜 그럴까..이 문제를 해결하려면 TASK

2021년 4월 17일
·
0개의 댓글
·
post-thumbnail

dataflow task 관리가 안되는 현상(feat. @EnableTask)

dataflow에 간단한 batch잡을 만들어서 실행시켰는데, 대시보드에서 Jobs 메뉴에 들어가지 않았다.k8s환경이라 배치pod의 내용을 살펴보니 정상적으로 종료되고 COMPLETE상태로 끝난것 같았는데 이상했다.문제 해결을 위해 dataflow-spring-clo

2021년 4월 16일
·
0개의 댓글
·
post-thumbnail

[GCP] ETL Processing on Google Cloud Using Dataflow and BigQuery 퀵랩

오늘 할 랩은 Dataflow와 Bigquery를 이용해서 ETL Processing!1\. 시작 코드 다운로드하기자주 사용할 변수를 정해준다.2\. 스토리지 버킷 만들기 us-central1 리전에 만들어주었다.3\. 파일들을 버킷에 복사하기 4\. Big query

2021년 1월 12일
·
0개의 댓글
·
post-thumbnail

[GCP] Windowing in Dataflow

Windowing > 윈도우 기능은 제한되지 않은 컬렉션을 논리적 구성 요소 또는 windows로 나눕니다 . Windowing 함수는 개별 요소의 타임 스탬프별로 제한되지 않은 컬렉션을 그룹화합니다. Fixed window 고정 간격의 window로 모든 키에 걸

2021년 1월 12일
·
0개의 댓글
·