[ Data ] DW(Data warehouse) 종류

6eom9eun·2024년 4월 1일

Data

목록 보기
1/4

DW(Data warehouse)란?

  • 데이터 웨어하우스(data warehouse)란 사용자의 의사 결정에 도움을 주기 위하여, 기간시스템의 DB에 축적된 대용량의 데이터를 공통의 형식으로 변환해서 관리하는 DB
    • 즉, 여러 도메인에 있는 데이터를 조합하여 분석하기 위한 중앙 DB라고 볼 수 있습니다.

  • 목적
    • 데이터를 기반한 의사 결정이 가능
    • 여러 소스의 데이터를 통합해서 분석이 가능
    • 과거 데이터 분석
    • 기존 정보를 활용해 더 나은 정보를 제공
  • 기업의 크기가 작고 저장할 데이터의 양이 많지 않다면 프로덕션 DB를 사용해도 되지만 회사의 규모가 커짐에 따라 데이터의 양이 방대해질수록 OLTP로 데이터 웨어하우스를 사용할 수 없어집니다.
    • 프로덕션 DB는 OLTP(Online Transaction Processing)을 사용합니다.
      • 서버 한 대에 저장할 수 있는 데이터의 양 제한이 있고 대신 속도가 가장 중요합니다.
    • 데이터 웨어하우스는 OLAP (Online Analytical Processing)을 사용합니다.
      • 처리할 수 있는 데이터의 크기가 중요하고 속도는 빠를 수록 좋지만 속도가 큰 영향을 주지 않습니다.

Snowflake

  • 클라우드 기반의 데이터 웨어하우징 플랫폼으로, 데이터 저장, 처리 및 분석을 위한 확장 가능한 솔루션을 제공합니다. Snowflake은 MPP (Massively Parallel Processing) 아키텍처를 기반으로 하며, 스토리지와 컴퓨팅을 완전히 분리하여 자원 사용량에 따라 비용을 최적화할 수 있습니다. 또한, ANSI SQL을 지원하여 사용자가 익숙한 SQL 쿼리를 사용하여 데이터를 쉽게 분석할 수 있습니다.

Presto

  • Facebook에서 개발된 오픈 소스 분산 SQL 쿼리 엔진으로, 대용량 데이터를 실시간으로 처리하기 위한 목적으로 설계되었습니다. Presto는 다양한 데이터 소스에 대한 쿼리를 지원하며, 특히 Hadoop, Amazon S3, MySQL, PostgreSQL 등 다양한 데이터 스토리지 시스템에 대해 대화형 쿼리를 실행할 수 있습니다. 또한, Presto는 다양한 기업에서 데이터 분석 및 비즈니스 인텔리전스 용도로 사용되고 있습니다.

Apache Hive

  • Apache Hadoop의 상위 계층에 구축된 데이터 웨어하우징 솔루션으로, 데이터를 저장, 관리 및 쿼리하기 위한 기능을 제공합니다. Hive는 SQL과 유사한 쿼리 언어인 HiveQL을 사용하여 대용량 데이터 세트를 처리할 수 있으며, Hadoop의 HDFS 파일 시스템에 데이터를 저장하고 MapReduce 작업을 사용하여 처리할 수 있습니다. Hive는 데이터 엔지니어링 및 데이터 분석 작업에 널리 사용되며, 대규모 데이터를 다루는데 적합합니다.

Apache Impala

  • Cloudera에서 개발한 오픈 소스 분산 SQL 쿼리 엔진으로, Apache Hadoop의 상위 계층에 구축된 데이터 웨어하우징 솔루션입니다. Impala는 실시간으로 대용량 데이터를 분석하기 위해 설계되었으며, SQL 쿼리를 사용하여 Hadoop 클러스터 내의 데이터를 대화형으로 쿼리할 수 있습니다.

Amazon Redshift

  • Amazon Web Services(AWS)에서 제공하는 클라우드 기반 데이터 웨어하우징 서비스로, 대규모 데이터 세트를 처리하고 분석하기 위한 기능을 제공합니다. Redshift는 컬럼 기반의 저장 방식을 사용하여 데이터 압축 및 처리 성능을 향상시키고, SQL 쿼리를 지원하여 사용자가 쉽게 데이터를 분석할 수 있도록 합니다.

Google BigQuery

  • Google Cloud Platform(GCP)에서 제공하는 서버리스 데이터 웨어하우징 및 분석 서비스입니다. BigQuery는 대용량 데이터를 실시간으로 쿼리하고 분석할 수 있는 기능을 제공하며, SQL 쿼리를 사용하여 데이터를 처리할 수 있습니다. 또한, BigQuery는 데이터의 저장 및 관리를 위한 강력한 보안 및 관리 기능을 제공합니다.

Azure Synapse

  • Microsoft Azure에서 제공하는 분석 및 데이터 통합 서비스로, 대규모 데이터 웨어하우징 및 분석 작업을 지원합니다. Synapse는 데이터 레이크 스토리지와 데이터 웨어하우스를 통합하여 다양한 데이터 소스에 대한 분석 및 쿼리를 지원하며, SQL 쿼리를 사용하여 데이터를 처리할 수 있습니다.

ClickHouse

  • Yandex에서 개발한 오픈 소스 분산 컬럼형 데이터베이스 관리 시스템(DBMS)으로, 대용량 데이터를 실시간으로 처리하기 위한 목적으로 설계되었습니다. ClickHouse는 컬럼 기반의 저장 방식을 사용하여 데이터를 효율적으로 압축하고 처리 성능을 향상시킵니다. 또한, ClickHouse는 SQL 쿼리를 지원하여 사용자가 쉽게 데이터를 분석할 수 있습니다.
profile
Dev learnnnnnN.......

0개의 댓글