정의
- 빅데이터 저장 및 분석용 클라우드 서비스
- 페타바이트 급의 데이터를 저장해놓고 쿼리를 통해 조회나 통계 작업 등을 할 수 있는 데이터베이스 개념의 빅데이터 플랫폼
- 초대량 데이터 분석용 솔루션
특징
1. Scaling Infrastructure
1) 빅쿼리 아키텍처
- 스토리지 노드와 컴퓨팅 노드 분리를 통한 유연성 극대화 (컴퓨팅, 스토리지 노드 별로 확장 가능)
2) 컬럼형 스토리지
- 자동 백업을 포함한 영구 저장 장치와 내구성
- 테이블은 최적화된 컬럼 형식으로 저장
- 각 테이블은 디스크에서 압축되고 암호화
- 스토리지는 내구성이 강하며 각 테이블은 데이터 센터간에 복제
- 데이터 효율성이 높아서 특정 컬럼만 읽어서 개수를 세거나 통계를 내는 분석용 데이터베이스 (OLAP) 작업 등에 유리
3) 트리구조의 병렬처리
- 트리구조의 병렬처리를 통하여 쿼리 퍼포먼스를 최고 수준으로 향상
- 디스크와 메모리를 함께 사용
- 필요한 컬럼만 슬롯 적재
- 복잡한 쿼리, 최상의 성능
2. Serverless DW / No-OpS
1) Hadoop/Spark 같은 빅데이터 솔루션은 인스톨, 설정, 클러스터의 유지보수가 보통 일이 아님
- 별도의 운영 조직이 필요하고, 여기에 많은 리소스가 소요됨
2) 클라우드 서비스로 설치 및 운영이 필요 없음
- 어디에 설치해서 사용하는 것이 아니라 구글 클라우드 서비스를 통해서 제공되는 빅데이터 저장 분석 서비스
- 클릭 몇 번으로 서비스 사용이 가능하여 별도의 설정이나 운영이 필요 없음
- 개발과 분석에만 집중할 수 있음
3) 빅쿼리의 서버리스 분석
4) 간단한 사용법
3. 비용에 대한 최적화
1) 저장/쿼리 시 요금만 지불
- 저장 비용 (스토리지): 빅쿼리에 저장된 전체 데이터 용량
- 처리 비용 (쿼리): 쿼리 실행에서 읽어들인 데이터 크기로 과금 (실제로 쿼리를 실행할 때만 발생) → 쿼리 시에 발생하는 트랜잭션 비용
2) 인프라에 대한 투자 없이 막강한 컴퓨팅 자원을 활용
- 수천 개의 CPU와 수백/수천 개의 컴퓨팅 자원을 저렴한 비용으로 사용할 수 있음
그 외 특징
1) SQL 언어 사용
- 기존 RDBMS에서 사용되는 SQL 언어를 그대로 사용하여 매우 쉬움
- 로그인 후 SQL만 수행하면 되기 때문에 상대적으로 빅데이터 분석이 쉬움
2) 데이터 복제를 통한 안정성
- 3개의 복제본이 서로 다른 3개의 데이터 센터에 분산되어 저장되기 때문에 데이터 유실 위험이 적음
3) 배치와 스트리밍 모두 지원
- 한꺼번에 데이터를 로딩하는 배치 + REST API 등을 통해서 실시간으로 데이터를 입력할 수 있는 스트리밍 기능 제공
- 스트리밍 시에는 초당 100,000개의 행(row)의 데이터를 입력할 수 있음
4) NO-KEY, NO-INDEX (Full Scan Only)
- 성능을 위해서 테이블에 데이터를 추가(Append)하는 것만을 지원
- 한번 입력된 데이터는 변경되거나 삭제될 수 없으며 데이터가 잘못 입력되었을 경우에는 테이블을 지우고 다시 생성해야 함