현재 데이터의 위치와 데이터를 클라우드로 마이그레이션 할 때의 이점을 알 수 있다.
데이터베이스, 데이터웨어하우스, 데이터레이크 등 데이터 스토리지와 관련된 주요 용어 정의
기업이 데이터에 대한 통찰력을 얻을 수 있게 해주는 Looker 같은 BI 솔루션을 살펴본다.
고객 데이터를 생각했을 때, 현재 어디에 데이터가 저장이 되어 있을까?
일부 데이터는 이미 클라우드에 저장 되어 있을 수 있다.
그러나 대부분의 기업에서 방대한 양의 데이터가 여전히 온프레미스에 저장되거나 개별 컴퓨터에 있다.데이터의 가치를 고려할 때 온프레미스에 데이터를 저장하는 것은 매트리스에 돈을 넣어두는 것과 비슷하며, 보안상으로도 좋지 않다.
그러므로 데이터를 저장하고 처리하는 방식이 비즈니스 성공에 굉장히 중요하다.
데이터를 온프레미스에 저장하는 경우 데이터의 일부 혹은 전부를 클라우드로 옮겨가는 것을 고민해야한다.
데이터를 온프레미스에 저장하면, 데이터의 수집, 보안 및 처리를 지원하는 IT 인프라의 책임을 생각해야한다.
또한 IT 인프라의 용량을 유지 관리하고 확장할 책임도 있다.
즉 비용과 시간이 많이 소요될 수 있다.
게다가 다운타임의 위험도 많이 있다.
데이터를 Cloud로 Migration해서 얻을 수 있는 이점은 데이터를 수집하고 사용할 수 있는 속도, 특히 다양한 형식의 데이터를 분석하고 사용할 수 있는 속도다.
Database는 일반적으로 테이블에 저장되고 컴퓨터 시스템에서 전자적으로 액세스 할 수 있는 조직화된 데이터 모음이다.
회사는 일반적으로 DB를 사용하여 기본 온라인 거래를 추적하고 회사가 비즈니스를 효율적으로 운영되는데 도움이 되는 정보를 제공하거나, 관리자와 직원이 더 나은 결정을 내리는데 도움을 준다.
데이터 무결성과 확장성은 데이터베이스를 사용하는 비즈니스의 두 가지 우선 순위이다.
데이터 무결성 또는 트랜잭션 무결성은 데이터베이스에 저장된 데이터의 정확성과 일관성을 의미한다.
데이터 무결성은 데이터베이스가 처음 설계될 때 일련의 규칙을 정하고 데이터가 수집될 때 지속적인 오류 검사 및 유효성 검사 루틴 방식으로 진행된다.확장성은 갑작스럽게 트랜잭션이 늘어났을 때도 처리할 수 있게 하기 위해 확장이 가능해야 함을 의미한다.
RDBMS로 기존 시스템, 클라우드, 쿠버네티스, BigQuery, 등과 쉽게 통합되며 성능 혁신을 기반으로 한다.
일반적인 데이터베이스 관리 시스템 및 방법론과 호환된다.
보안, 가용성 및 내구성을 제공하며 스토리지가 활성화되면 자동으로 확장된다.이를 통해 조직은 클라우드에서 데이터베이스를 쉽게 결정, 유지, 관리할 수 있다.
또다른 RDBMS로 글로벌 규모로 설계가 되었다.
Cloud Spanner를 사용하면 데이터가 리전 간에 자동으로 즉시 복사가 된다.
이 복제는 한 지역이 오프라인이 되더라도 다른 지역에서 계속 데이터를 제공할 수 있음을 의미한다.
또한 Query를 날리면 어느 지역이든 동일한 결과를 출력해낸다.
데이터베이스는 트랜잭션 데이터를 온라인 방식으로 저장하지만, 데이터 웨어하우스는 데이터베이스를 비롯한 여러 소스의 데이터를 조합한다.
데이터베이스는 다양한 소스에서 대량의 데이터를 효율적으로 수집할 수 있도록 구축되고 최적화된다.
데이터 웨어하우스는 대규모 및 다차원 데이터 세트를 신속하게 분석할 수 있도록 구축된다.
(비즈니스에서의 데이터 중앙 허브라고 생각하면 됌)
가동 중지 시간이 없는 업그레이드, 유지 관리 및 확장이 가능한 Fully Managed Data Warehouse 이다.
매우 빠른 속도, 제로 오버헤드를 사용하여 페타바이트 규모의 데이터를 분석할 수 있다.
이는 조직으로서 유지 관리에 시간과 리소스를 소비하는 대신 분석에 집중하여 의미있는 인사이트를 도출할 수 있게 한다.
대부분의 데이터 웨어하우스 공급자는 스토리지와 컴퓨팅을 함께 연결한다.
따라서 고객은 Query 실행 여부에 관계없이 컴퓨팅 용량에 대해 비용을 지불해야 한다.
다만, BigQuery는 그렇지 않다..!!(Serverless)
필요한 컴퓨팅 파워는 자동으로 프로비저닝 된다.
데이터레이크는 대량의 정형, 반정형 및 비정형 데이터를 저장, 처리 및 보호하도록 설계된 리포지토리이다.
방대한 양의 데이터를 기본 형식으로 저장하고, 크기 제한을 무시하고 다양한 데이터를 처리할 수 있다.데이터 웨어하우스의 주요 목적은 데이터를 변환하고 통합하여 손쉬운 데이터 분석을 가능하게 하는 것이다.
데이터레이크는 기본적으로 유연하며 이는 데이터웨어하우스의 큰 한계 중 하나이다.
기존 데이터웨어하우스에서만 분석된 데이터는 잘 정의된 스키마를 따르지 않는 데이터를 처리하기가 어렵다.
해당 데이터는 종종 무시되기 때문이다.
데이터 레이크는 종종 다양한 제품으로 구성되므로 데이터 레이크에 사용할 제품을 결정할 때 수집되는 데이터의 특성을 고려해야 한다.

위의 사진은 정형, 반정형, 비정형 데이터가 어떤 Google Cloud 제품을 사용하면 효율적으로 저장이 되는지를 나타낸 순서도이다.
예를 들어, 구조화되지 않은 데이터를 데이터 레이크에 저장하기 위한 최고의 제품은 Cloud Storage 이다.
Cloud Storage는 Blob 데이터를 저장하고 제공할 수 있는 서비스이다.
Blob은 일반적으로 이미지, 오디오, 기타 미디어 개체를 의미한다.Cloud Storage는 조직에 다양한 옵션을 제공하므로 액세스 요구 사항에 따라 객체 스토리지를 조정할 수 있다.
실제로 Cloud Storage 주요 이점 중 일부는 최소 용량 없이 무제한 데이터를 저장할 수 있다는 것이다.
대기 시간이 짧고 원하는 만큼 자주 데이터를 검색할 수 있으며 전 세계 어디에서나 액세스 할 수 있다.
기업이 자주 직면하는 문제는 올바른 BI 솔루션을 식별하는 것이다.
일반적으로 BI 솔루션은 어려워서 엔지니어링 팀을 따뤄 두며, 데이터 분석과와 나눠진다.
그 결과 실시간 인사이트를 얻는 목적을 무산시킨다.어떤 솔루션은 소수의 사람만 혹은 일부의 데이터에만 접근이 가능하게끔 한다.
분석데이터베이스 위에 위치하며, 데이터를 설명하고 비즈니스 지표를 정의하는 것을 간단하게 만드는 데이터 플랫폼이다.
신뢰할 수 있는 데이터가 있다면, 팀의 모든 사람이 이를 탐색하고 분석하며 자신의 질문에 답하고 시각화를 생성하면서 더 큰 인사이트를 발견할 수 있다.