열 기반 모델은 행 대신 데이터 열로 그룹화된 셀에 데이터를 저장합니다.일반적으로 함께 액세스되는 열의 논리적 그룹화를 호출합니다
열 데이터베이스는 열에 해당하는 모든 셀을 연속 디스크 항목으로 저장하므로 액세스데이터 검색이 매우 빨라집니다.
시계열 데이터, 날씨 데이터 및 IoT 데이터
그래프 기반 데이터베이스는 그래픽 모델을 사용하여 데이터를 표현하고 저장합니다
데이터 마트는 데이터 웨어하우스의 제한된 영역에 대한 분석 기능을 제공하기 때문에,격리된 보안과 격리된 성능을 제공합니다
데이터 마트의 가장 중요한 역할은 비즈니스별 보고 및 분석입니다
데이터 웨어하우스와 달리 데이터 레이크는 제외 없이 모든 소스 데이터를 유지합니다.그리고 데이터에는 모든 유형의 데이터 소스와 유형이 포함될 수 있습니다.
ETL은 원시 데이터를 분석 준비 데이터로 변환하는 방법
로드는 처리된 데이터를 대상 시스템이나 데이터 저장소로 전송하는 단계
데이터 파이프라인은 장기 실행 일괄 쿼리를 모두 지원하는 고성능 시스템
Hadoop은 대용량 데이터의 분산 저장 및 처리를 제공하는 도구 모음
Hadoop은 데이터 저장을 위한 안정적이고 확장 가능하며 비용 효율적인 솔루션을 제공
데이터를 통합하여 엔터프라이즈 데이터 웨어하우스의 비용을 최적화하고 간소화
Hadoop의 4가지 주요 구성 요소 중 하나는 Hadoop 분산 파일 시스템(HDFS)
Hive는 Hadoop을 기반으로 구축된 데이터 쿼리 및 분석을 위한 데이터 웨어하우스
Hive는 대용량 데이터를 읽고, 쓰고, 관리하기 위한 오픈 소스 데이터 웨어하우스 소프트웨어
Hive는 Hadoop을 기반으로 하기 때문에 쿼리지연 시간이 매우 길기 때문에 Hive는 다음과 같은 애플리케이션에 적합하지 않습니다
Hive는 ETL, 보고 및 데이터 분석과 같은 데이터 웨어하우징 작업에 더 적합
Spark는 복잡한 데이터 분석을 수행하도록 설계된 분산 데이터 분석 프레임워크
인메모리 처리를 활용하여 계산 속도를 크게 높입니다
인메모리 처리 ?
- 하드디스크 시스템이 전체 시스템의 성능을 저하하는 병목
Spark에는 Java, Scala, Python,R 및 SQL.
독립형 클러스터링 기술은 물론 다른 인프라에서도 실행할 수 있습니다