BigQuery

김민형·2022년 6월 9일
2

GCP - Data

목록 보기
1/44

BigQuery

대용량 Dataset(최대 몇십 억개의 행)을 대화식으로 분석할 수 있는 웹 서비스
대규모 데이터 저장 및 분석 플랫폼으로, 일종의 데이터 웨어하우스
데이터 웨어하우스 : 축적된 데이터를 모아 관리하는 곳
확장 가능하고 사용이 간편한 BigQuery를 통해 개발자와 기업은 필요할 때 강력한 데이터 분석 수행 가능

특징

  1. 클라우드 서비스로 설치/ 운영이 필요x (NoOps)

  2. SQL언어 사용
    기존 RDBMS에서 사용되는 SQL언어 그대로 사용. 로그인만 수행 후 SQL만 수행하면 되므로 상대적으로 쉽다.

  3. 클라우드 스케일의 인프라를 활용한 대용량 자원과 빠른 성능

  4. 데이터 복제를 통한 안정성
    3개의 복제본이 서로 다른 데이터 센터에 분산되어 저장되기 때문에 데이터에 대한 유실 위험이 적다.

  5. 배치, 스트리밍 모두 지원
    한꺼번에 데이터를 로딩하는 배치 제외, 실시간으로 데이터를 입력할 수 있는 스트리밍 기능 제공

  6. 비용이 저렴하다.

빠른 이유

컬럼 기반 스토리지

RDBMS는 레코드 단위로 데이터를 저장함 / 빅쿼리는 컬럼 단위로 데이터를 뜯어내어 저장

  1. 트래픽 최소화
SELECT TOP(amount) from order

위와 같은 쿼리를 실행할 때 RDBMS는 레코드 단위로 전체를 조회하지만, 빅쿼리는 컬럼 기반 저장방식이기 때문에 해당 컬럼(amount)만 조회하면 된다.

  1. 높은 압축 비율
    컬럼 단위로 저장한다는 것은 같은 타입의 데이터들이 몰려서 저장된다.
    그 결과, RDBMS는 1:3 비율로 압축하지만 컬럼 기반 저장은 1:10 비율로 압축이 가능.
    많이 압축한만큼 쿼리 수행 능력도 뛰어나다.

  2. 트리 기반 분산 처리

    root server
    클라이언트의 쿼리를 분석하여 분산 머신에서 동작하는 수많은 작은 단위의 쿼리문을 만들어줌
    그 작은 쿼리를 intermediate servers에 전달
    intermediate server
    실제 연산을 수행하는 leaf servers에게 쿼리를 전달
    쿼리의 결과 값으로 반환되는 값들을 합쳐 root server에게 전달
    leaf servers
    실제 쿼리가 동작하는 곳

할당량 및 한도

  • 쿼리
    조회 무제한, 동시 실행 100개, 동시 스크립트 실행 1000개, 실행시간 6시간
  • 테이블
    생성, 삭제, 복사 포함 1500개, 10초당 5개
  • DML
    DML 실행 무제한, 테이블 당 동시 2개
  • 로드
    일일 100000개, 작업 당 15TB
profile
Solutions Architect (rlaalsgud97@gmail.com)

0개의 댓글