# etl

38개의 포스트
post-thumbnail

Dataflow 템플릿 커스텀해보기

빅쿼리 데이터 세트 생성timestamp, INT/FLOAT 유형의 컬럼, STRING 유형의 컬럼을 가지는 테이블 생성Dataflow가 동작하는 스테이지의 파일을 저장할 Cloud Storage 버킷 생성ps_to_bq.py실행콘솔에서 Pub/Sub 주제에 직접 메시

약 11시간 전
·
0개의 댓글
·
post-thumbnail

Datastream을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

Datastream은 사용이 간편한 서버리스 CDC(변경 데이터 캡처) 및 복제 서비스.지연 시간을 최소화하면서 이기종 데이터베이스와 애플리케이션에서 데이터를 안정적으로 동기화할 수 있다.Datastream은 Oracle 및 MySQL,PostgreSQL 데이터베이스에

3일 전
·
0개의 댓글
·
post-thumbnail

Twitter API를 사용한 스트리밍 파이프라인 구축

우선 Twitter API를 통해 ACCESS 및 Bearer Token 등을 받아온 상태여야 한다.이 키가 내 트위터 계정에 대한 정보를 잘 받아오는 지 확인하려면 아래 명령어를 실행시켜보면 된다.잘 받아오는 것 확인.그리고 GCP 콘솔에서 아래 리소스들을 생성해준다

4일 전
·
0개의 댓글
·
post-thumbnail

Debezium을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

MySQL로 생성해주고 외부에서 접속을 해주기 위해 접속을 승인할 네트워크 대역을 지정해준다.해당 ip는 내 ip를 확인하여 지정해준 것이다.아래 명령어로 Cloud SQL 접속workbench와 같은 툴을 사용해도 되지만 Debezium 서버도 만들어야 하므로 Ubu

2022년 9월 22일
·
0개의 댓글
·
post-thumbnail

Cloud Scheduler를 사용하여 Pub/Sub to BigQuery 스트리밍 파이프라인 구축

Dataflow의 Pub/Sub Topic to BigQuery 템플릿을 사용해 스트리밍 파이프라인을 구축할 것이다.Pub/Sub으로 메시지를 게시하는 것은 우선 Cloud Scheduler를 사용하였다.Pub/Sub 주제를 하나 기본 구독을 하나 추가해서 만들어준다.

2022년 9월 22일
·
0개의 댓글
·
post-thumbnail

Apache-Airflow(2) : 스케줄링

Download Data(API로 호출) -> Process Data(Spark로 처리) -> Store Data(Insert/Update)

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

Cloud DLP와 Dataflow를 사용한 데이터 마스킹

Cloud DLP는 민감한 정보가 포함된 것으로 의심되는 모든 데이터에 대해 검사 및 익명화를 제공하는 Google Cloud 도구Cloud DLP는 InfoType을 사용하여 문서 내에서 발견될 수 있는 민감한 데이터를 인식한다. InfoType은 특정 유형의 데이터

2022년 9월 21일
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용하여 Kafka to BigQuery 스트리밍 파이프라인 구축

우분투 VM 하나 생성 후 아래 명령어 차례로 입력Apache Kafka 다운로드kafka와 zookeeper를 systemctl 명령을 사용하여 시작/중지하도록 설정zookeeper아래의 내용 추가kafka아래의 내용 추가새로운 변경사항을 적용하기 위해 systemd

2022년 9월 16일
·
0개의 댓글
·
post-thumbnail

Apache-Airflow(1) : 개요

진행중인 프로젝트에서 배치성으로 분석해야 하는 데이터들이 생겼다. 주기적으로 데이터를 받아 분석해야 했기에, 해당 작업 내용을 듣자마자 Airflow가 생각이 났다.데이터를 받고해당 데이터를 원하는 형태로 전처리 한 다음해당 데이터를 저장한다새로이 저장한 데이터를 분석

2022년 9월 12일
·
0개의 댓글
·
post-thumbnail

::ETL:: InnoQuartz 디자이너 사용법

- 인트로 > - 화면구성 화면구성 > - 실행 > - Basic ![](https://velog.velcdn.com/images/kmjhere98/post/7f3a7ecb-7aff-48fb-abf0-8d8f7e041929/image.p

2022년 9월 6일
·
0개의 댓글
·
post-thumbnail

Dataflow SQL을 사용하여 스트리밍 파이프라인 구축

Dataflow SQL을 사용해 Pub/Sub 스트리밍 데이터를 BigQuery 테이블 데이터와 join해볼 것이다.빅쿼리에 데이터 세트를 만들어주고 us_state_salesregions 테이블을 만들어준다.us_staste_salesregions.csv이 csv파일

2022년 9월 2일
·
0개의 댓글
·
post-thumbnail

Cloud Composer - AWS S3의 데이터를 사용하여 GCP에서 데이터 분석

DAG를 통해 BigQuery 공개 데이터 세트의 ghcn_d 데이터와 S3 버킷에 저장된 CSV 파일을 join한 다음 Dataproc 배치 작업을 실행하여 결합한 데이터를 처리하여 빅쿼리에 적재하는 실습을 해볼 것이다.Composer 2 버전으로 환경을 생성해준다.

2022년 9월 1일
·
0개의 댓글
·
post-thumbnail

[Week2] (데이터 엔지니어링이란?) 03. Data Pipeline

💡 ETL : Extract / Transform / Load. 다양한 데이터 소스로부터 데이터를 수집 및 처리하는데 사용되는 데이터 파이프라인데이터 분석가들이 분석에 사용할 데이터를 정의하게 되면, 데이터 엔지니어에게 요청을 해서 해당 데이터를 처리해주길 원한다.

2022년 8월 30일
·
0개의 댓글
·
post-thumbnail

AWS - Glue(2) : 사용

데이터 엔지니어링에 관한 이론적인 공부만 하다가, AWS Glue를 사용할 일이 생겼다.S3에 csv 파일로 저장되어 있는 데이터를 AWS Glue를 사용하여 parquet로 변환한 후, Athena를 이용하여 데이터를 분석할 예정이다AWS Glue의 크롤러에 들어간다

2022년 8월 15일
·
0개의 댓글
·
post-thumbnail

AWS - Glue(1) : 개념과 특징

AWS Glue란?완전 관리형 데이터 추출, 변환 및 로드(ETL) 서비스Data Store : S3, RDS, Redshift, Kinesis, Apache kafka 등 데이터 저장 서비스 혹은 데이터 스트림 서비스Crawler(크롤러) : Classifier의 우

2022년 8월 14일
·
0개의 댓글
·
post-thumbnail

Cloud Data Fusion - 고객 데이터 ETL 파이프라인 구축

Wrangler를 사용해서 파이프라인을 배포해볼 것이다.Wrangler자동 또는 반자동화 도구로 데이터를 쉽게 사용할 수 있도록 데이터를 사용하기 좋은 형태로 변경하는 사람을 데이터 Wrangler라고 한다.Data Fusion에선 이런 랭글링 작업을 간편하게 할 수

2022년 8월 12일
·
0개의 댓글
·
post-thumbnail

Cloud Data Fusion 사용해보기

코드 작성 없이 마우스 클릭만으로 ETL/ELT 데이터 파이프라인을 배포할 수 있는 시각적 인터페이스로 CDAP라는 오픈소스 프로젝트를 기반으로 구축되었다.기본 설정으로 생성해주고 필요하면 고급 옵션에서 Stackdriver 로깅, 모니터링 설정을 해줄 수도 있다.그리

2022년 8월 12일
·
0개의 댓글
·
post-thumbnail

[DE] ETL과 ELT 비교, 5가지 주요 차이점

ETL은 데이터의 추출(Extract), 변환(Transform), 로드(Load) 프로세스를 가리킵니다.ELT는 데이터의 추출(Extract), 로드(Load), 변환(Transform) 프로세스를 가리킵니다.ETL에서 데이터는 데이터 소스에서 스테이징을 거쳐 데이터

2022년 7월 29일
·
0개의 댓글
·

ETL vs ELT

Extract, Transform, Load Extract > 추출 : 데이터를 분석하기 위해 테이블에서 데이터를 가져옴 Transform > 변환 : 데이터를 클라이언트 또는 개발자가 원하는 테이블로 변환 Load > 적재 : 변환 전 또는 후에 데이터를 스토리지에 저장하는 것을 의미함 ETL vs ELT? ETL : 추출 > 변환 > 적재 장점...

2022년 6월 19일
·
0개의 댓글
·