Google BigQuery

SSONG·2022년 9월 27일

BigQuery BigdataPlatform bigdata google

Bigdata platform

목록 보기

2/4

정의

빅데이터 저장 및 분석용 클라우드 서비스
페타바이트 급의 데이터를 저장해놓고 쿼리를 통해 조회나 통계 작업 등을 할 수 있는 데이터베이스 개념의 빅데이터 플랫폼
초대량 데이터 분석용 솔루션

특징

1. Scaling Infrastructure

확장 가능한 대규모 컴퓨팅 자원

1) 빅쿼리 아키텍처

스토리지 노드와 컴퓨팅 노드 분리를 통한 유연성 극대화 (컴퓨팅, 스토리지 노드 별로 확장 가능)

2) 컬럼형 스토리지

자동 백업을 포함한 영구 저장 장치와 내구성
- 테이블은 최적화된 컬럼 형식으로 저장
- 각 테이블은 디스크에서 압축되고 암호화
- 스토리지는 내구성이 강하며 각 테이블은 데이터 센터간에 복제
데이터 효율성이 높아서 특정 컬럼만 읽어서 개수를 세거나 통계를 내는 분석용 데이터베이스 (OLAP) 작업 등에 유리

3) 트리구조의 병렬처리

트리구조의 병렬처리를 통하여 쿼리 퍼포먼스를 최고 수준으로 향상
- 디스크와 메모리를 함께 사용
- 필요한 컬럼만 슬롯 적재
- 복잡한 쿼리, 최상의 성능

2. Serverless DW / No-OpS

운영 및 관리가 필요 없음

1) Hadoop/Spark 같은 빅데이터 솔루션은 인스톨, 설정, 클러스터의 유지보수가 보통 일이 아님

별도의 운영 조직이 필요하고, 여기에 많은 리소스가 소요됨

2) 클라우드 서비스로 설치 및 운영이 필요 없음

어디에 설치해서 사용하는 것이 아니라 구글 클라우드 서비스를 통해서 제공되는 빅데이터 저장 분석 서비스
클릭 몇 번으로 서비스 사용이 가능하여 별도의 설정이나 운영이 필요 없음
개발과 분석에만 집중할 수 있음

3) 빅쿼리의 서버리스 분석

100%의 시간을 데이터 분석에 투입

4) 간단한 사용법

데이터 저장 → 쿼리 실행 → 결과 확인

3. 비용에 대한 최적화

1) 저장/쿼리 시 요금만 지불

저장 비용 (스토리지): 빅쿼리에 저장된 전체 데이터 용량
처리 비용 (쿼리): 쿼리 실행에서 읽어들인 데이터 크기로 과금 (실제로 쿼리를 실행할 때만 발생) → 쿼리 시에 발생하는 트랜잭션 비용

2) 인프라에 대한 투자 없이 막강한 컴퓨팅 자원을 활용

수천 개의 CPU와 수백/수천 개의 컴퓨팅 자원을 저렴한 비용으로 사용할 수 있음

그 외 특징

1) SQL 언어 사용

기존 RDBMS에서 사용되는 SQL 언어를 그대로 사용하여 매우 쉬움
로그인 후 SQL만 수행하면 되기 때문에 상대적으로 빅데이터 분석이 쉬움

2) 데이터 복제를 통한 안정성

3개의 복제본이 서로 다른 3개의 데이터 센터에 분산되어 저장되기 때문에 데이터 유실 위험이 적음

3) 배치와 스트리밍 모두 지원

한꺼번에 데이터를 로딩하는 배치 + REST API 등을 통해서 실시간으로 데이터를 입력할 수 있는 스트리밍 기능 제공
스트리밍 시에는 초당 100,000개의 행(row)의 데이터를 입력할 수 있음

4) NO-KEY, NO-INDEX (Full Scan Only)

성능을 위해서 테이블에 데이터를 추가(Append)하는 것만을 지원
한번 입력된 데이터는 변경되거나 삭제될 수 없으며 데이터가 잘못 입력되었을 경우에는 테이블을 지우고 다시 생성해야 함

SSONG

이전 포스트

Apache Spark

다음 포스트