Google BigQuery

SSONG·2022년 9월 27일
0

Bigdata platform

목록 보기
2/4

정의

  • 빅데이터 저장 및 분석용 클라우드 서비스
  • 페타바이트 급의 데이터를 저장해놓고 쿼리를 통해 조회나 통계 작업 등을 할 수 있는 데이터베이스 개념의 빅데이터 플랫폼
  • 초대량 데이터 분석용 솔루션

특징

1. Scaling Infrastructure

  • 확장 가능한 대규모 컴퓨팅 자원

1) 빅쿼리 아키텍처

  • 스토리지 노드와 컴퓨팅 노드 분리를 통한 유연성 극대화 (컴퓨팅, 스토리지 노드 별로 확장 가능)

2) 컬럼형 스토리지

  • 자동 백업을 포함한 영구 저장 장치와 내구성
    • 테이블은 최적화된 컬럼 형식으로 저장
    • 각 테이블은 디스크에서 압축되고 암호화
    • 스토리지는 내구성이 강하며 각 테이블은 데이터 센터간에 복제
  • 데이터 효율성이 높아서 특정 컬럼만 읽어서 개수를 세거나 통계를 내는 분석용 데이터베이스 (OLAP) 작업 등에 유리

3) 트리구조의 병렬처리

  • 트리구조의 병렬처리를 통하여 쿼리 퍼포먼스를 최고 수준으로 향상
    • 디스크와 메모리를 함께 사용
    • 필요한 컬럼만 슬롯 적재
    • 복잡한 쿼리, 최상의 성능

2. Serverless DW / No-OpS

  • 운영 및 관리가 필요 없음

1) Hadoop/Spark 같은 빅데이터 솔루션은 인스톨, 설정, 클러스터의 유지보수가 보통 일이 아님

  • 별도의 운영 조직이 필요하고, 여기에 많은 리소스가 소요됨

2) 클라우드 서비스로 설치 및 운영이 필요 없음

  • 어디에 설치해서 사용하는 것이 아니라 구글 클라우드 서비스를 통해서 제공되는 빅데이터 저장 분석 서비스
  • 클릭 몇 번으로 서비스 사용이 가능하여 별도의 설정이나 운영이 필요 없음
  • 개발과 분석에만 집중할 수 있음

3) 빅쿼리의 서버리스 분석

  • 100%의 시간을 데이터 분석에 투입

4) 간단한 사용법

  • 데이터 저장 → 쿼리 실행 → 결과 확인

3. 비용에 대한 최적화

1) 저장/쿼리 시 요금만 지불

  • 저장 비용 (스토리지): 빅쿼리에 저장된 전체 데이터 용량
  • 처리 비용 (쿼리): 쿼리 실행에서 읽어들인 데이터 크기로 과금 (실제로 쿼리를 실행할 때만 발생) → 쿼리 시에 발생하는 트랜잭션 비용

2) 인프라에 대한 투자 없이 막강한 컴퓨팅 자원을 활용

  • 수천 개의 CPU와 수백/수천 개의 컴퓨팅 자원을 저렴한 비용으로 사용할 수 있음

그 외 특징

1) SQL 언어 사용

  • 기존 RDBMS에서 사용되는 SQL 언어를 그대로 사용하여 매우 쉬움
  • 로그인 후 SQL만 수행하면 되기 때문에 상대적으로 빅데이터 분석이 쉬움

2) 데이터 복제를 통한 안정성

  • 3개의 복제본이 서로 다른 3개의 데이터 센터에 분산되어 저장되기 때문에 데이터 유실 위험이 적음

3) 배치와 스트리밍 모두 지원

  • 한꺼번에 데이터를 로딩하는 배치 + REST API 등을 통해서 실시간으로 데이터를 입력할 수 있는 스트리밍 기능 제공
  • 스트리밍 시에는 초당 100,000개의 행(row)의 데이터를 입력할 수 있음

4) NO-KEY, NO-INDEX (Full Scan Only)

  • 성능을 위해서 테이블에 데이터를 추가(Append)하는 것만을 지원
  • 한번 입력된 데이터는 변경되거나 삭제될 수 없으며 데이터가 잘못 입력되었을 경우에는 테이블을 지우고 다시 생성해야 함

0개의 댓글