# BigQuery

76개의 포스트
post-thumbnail

Datastream을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

Datastream은 사용이 간편한 서버리스 CDC(변경 데이터 캡처) 및 복제 서비스.지연 시간을 최소화하면서 이기종 데이터베이스와 애플리케이션에서 데이터를 안정적으로 동기화할 수 있다.Datastream은 Oracle 및 MySQL,PostgreSQL 데이터베이스에

약 6시간 전
·
0개의 댓글
·

Google BigQuery

빅데이터 저장 및 분석용 클라우드 서비스페타바이트 급의 데이터를 저장해놓고 쿼리를 통해 조회나 통계 작업 등을 할 수 있는 데이터베이스 개념의 빅데이터 플랫폼초대량 데이터 분석용 솔루션확장 가능한 대규모 컴퓨팅 자원1) 빅쿼리 아키텍처 스토리지 노드와 컴퓨팅 노드 분리

약 8시간 전
·
0개의 댓글
·
post-thumbnail

Twitter API를 사용한 스트리밍 파이프라인 구축

우선 Twitter API를 통해 ACCESS 및 Bearer Token 등을 받아온 상태여야 한다.이 키가 내 트위터 계정에 대한 정보를 잘 받아오는 지 확인하려면 아래 명령어를 실행시켜보면 된다.잘 받아오는 것 확인.그리고 GCP 콘솔에서 아래 리소스들을 생성해준다

어제
·
0개의 댓글
·
post-thumbnail

Debezium을 사용한 Cloud SQL to BigQuery CDC 파이프라인 구축

MySQL로 생성해주고 외부에서 접속을 해주기 위해 접속을 승인할 네트워크 대역을 지정해준다.해당 ip는 내 ip를 확인하여 지정해준 것이다.아래 명령어로 Cloud SQL 접속workbench와 같은 툴을 사용해도 되지만 Debezium 서버도 만들어야 하므로 Ubu

5일 전
·
0개의 댓글
·
post-thumbnail

Cloud Scheduler를 사용하여 Pub/Sub to BigQuery 스트리밍 파이프라인 구축

Dataflow의 Pub/Sub Topic to BigQuery 템플릿을 사용해 스트리밍 파이프라인을 구축할 것이다.Pub/Sub으로 메시지를 게시하는 것은 우선 Cloud Scheduler를 사용하였다.Pub/Sub 주제를 하나 기본 구독을 하나 추가해서 만들어준다.

5일 전
·
0개의 댓글
·
post-thumbnail

Cloud DLP와 Dataflow를 사용한 데이터 마스킹

Cloud DLP는 민감한 정보가 포함된 것으로 의심되는 모든 데이터에 대해 검사 및 익명화를 제공하는 Google Cloud 도구Cloud DLP는 InfoType을 사용하여 문서 내에서 발견될 수 있는 민감한 데이터를 인식한다. InfoType은 특정 유형의 데이터

6일 전
·
0개의 댓글
·
post-thumbnail

Dataflow를 사용하여 Kafka to BigQuery 스트리밍 파이프라인 구축

우분투 VM 하나 생성 후 아래 명령어 차례로 입력Apache Kafka 다운로드kafka와 zookeeper를 systemctl 명령을 사용하여 시작/중지하도록 설정zookeeper아래의 내용 추가kafka아래의 내용 추가새로운 변경사항을 적용하기 위해 systemd

2022년 9월 16일
·
0개의 댓글
·
post-thumbnail

Fluentd와 BigQuery를 사용하여 실시간 로그 분석

Fluentd는 로그(데이터) 수집기(collector)다. 보통 로그를 수집하는 데 사용하지만, 다양한 데이터 소스(HTTP, TCP 등)로부터 데이터를 받아올 수 있다.Fluentd로 전달된 데이터는 tag, time, record(JSON) 로 구성된 이벤트로 처

2022년 9월 7일
·
0개의 댓글
·
post-thumbnail

Data Catalog - 프로젝트 간 데이터 세트 메타데이터 탐색

실습 순서1) 기존 데이터 환경에서 소유자 역할을 가지고 탐색2) 기존 데이터 환경에서 제한된 사용자 역할을 가지고 탐색3) Data Catalog를 사용하여 여러 프로젝트간 존재하는 데이터세트에 태그를 지정유의사항1) Data Catalog가 이제 Dataplex라는

2022년 9월 7일
·
0개의 댓글
·
post-thumbnail

Data Catalog 사용해보기

Data Catalog 는 Google Cloud의 Data Analytics 제품군에 포함된 확장 가능한 완전 관리형 메타데이터 관리 서비스데이터 자산 관리는 적절한 도구 없이는 시간과 비용이 많이 소요될 수 있다.Data Catalog는 조직이 데이터 자산을 찾고,

2022년 9월 7일
·
0개의 댓글
·
post-thumbnail

BigQuery - 테이블 스냅샷 & 클론

테이블 스냅샷은 특정 기간의 테이블을 백업해두는 거라고 생각하면 된다.여기서 특정 기간이라고 하면 빅쿼리의 Time Travel 기간인 최대 7일 전의 테이블 데이터에 한해서 스냅샷을 만들 수 있다.스냅샷은 읽기 전용이지만 그 스냅샷을 갖고 표준 테이블을 생성할 수 있

2022년 9월 7일
·
0개의 댓글
·
post-thumbnail

BigQuery Omni - AWS 연결

AWS에 연결하려면 AWS IAM 역할을 통해 사용자에게 권한을 부여하기 때문에 빅쿼리용 AWS IAM 역할을 만들어서 빅쿼리에 할당해줘야 연결할 수 있다.우선 BigQuery Connection API 사용이 설정되어 있어야 하고 빅쿼리에서 연결할 s3버킷을 하나 미

2022년 9월 6일
·
0개의 댓글
·
post-thumbnail

BigQuery Omni

데이터가 있는 위치에서 데이터를 분석하는 기능과 필요에 따라 데이터를 복제할 수 있는 유연성이 포함된 클라우드 간 분석 솔루션Amazon S3 또는 Azure blob storagee에 저장된 데이터에 대해 BigQuery 분석을 수행할 수 있다.BigQuery 아키텍

2022년 9월 6일
·
0개의 댓글
·
post-thumbnail

Dataflow SQL을 사용하여 스트리밍 파이프라인 구축

Dataflow SQL을 사용해 Pub/Sub 스트리밍 데이터를 BigQuery 테이블 데이터와 join해볼 것이다.빅쿼리에 데이터 세트를 만들어주고 us_state_salesregions 테이블을 만들어준다.us_staste_salesregions.csv이 csv파일

2022년 9월 2일
·
0개의 댓글
·
post-thumbnail

Cloud Composer - AWS S3의 데이터를 사용하여 GCP에서 데이터 분석

DAG를 통해 BigQuery 공개 데이터 세트의 ghcn_d 데이터와 S3 버킷에 저장된 CSV 파일을 join한 다음 Dataproc 배치 작업을 실행하여 결합한 데이터를 처리하여 빅쿼리에 적재하는 실습을 해볼 것이다.Composer 2 버전으로 환경을 생성해준다.

2022년 9월 1일
·
0개의 댓글
·
post-thumbnail

BigLake

빅쿼리의 차세대 솔루션으로 데이터 웨어하우스 + 데이터 레이크의 형태BigLake 는 멀티 클라우드 스토리지 및 개방형 형식을 통해 균일하고 세분화된 액세스 제어를 제공하여 데이터 웨어하우스 및 데이터 레이크에 대한 데이터 액세스를 단순화하는 통합 스토리지 엔진BigL

2022년 8월 25일
·
0개의 댓글
·
post-thumbnail

Big Query

Big Query는 구글에서 제공하는 서비스 중 하나로써, 대용량 Dataset을 대회식으로 분석할 수 있는 웹 서비스이다.대규모 데이터 저장 및 분석 플롯폼으로 일종의 데이터 웨어하우스라고 불린다.(엄청나게 큰 DB의 일종으로 생각하면 편할 듯 싶다...)최대 페타바

2022년 8월 25일
·
0개의 댓글
·

BigQuery

BigQuery는 엄청나게 큰 데이터에 대한 SQL 쿼리를 빠르게 수행해주는 플렛폼 서비스 중 하나입니다. 페타바이트에 달하는 데이터도 빠르게 분석할 수 있고 DB 설계처럼 복잡하지 않으며 구글에서 관리해주기 때문에 사용자가 별도의 서버나 물리적 하드웨어에 대해 스트레

2022년 8월 15일
·
0개의 댓글
·
post-thumbnail

Cloud Data Fusion - 고객 데이터 ETL 파이프라인 구축

Wrangler를 사용해서 파이프라인을 배포해볼 것이다.Wrangler자동 또는 반자동화 도구로 데이터를 쉽게 사용할 수 있도록 데이터를 사용하기 좋은 형태로 변경하는 사람을 데이터 Wrangler라고 한다.Data Fusion에선 이런 랭글링 작업을 간편하게 할 수

2022년 8월 12일
·
0개의 댓글
·
post-thumbnail

Cloud Data Fusion 사용해보기

코드 작성 없이 마우스 클릭만으로 ETL/ELT 데이터 파이프라인을 배포할 수 있는 시각적 인터페이스로 CDAP라는 오픈소스 프로젝트를 기반으로 구축되었다.기본 설정으로 생성해주고 필요하면 고급 옵션에서 Stackdriver 로깅, 모니터링 설정을 해줄 수도 있다.그리

2022년 8월 12일
·
0개의 댓글
·