[IBM data analyst]-Understanding Data Repositories and Big Data Platforms

sir.YOO_HWAN·2022년 7월 17일

코세라 - IBM 데이터 분석가 과정

목록 보기

4/11

데이터 리포지토리는 비즈니스 운영에 사용하거나 보고 및 데이터 분석을 위해 마이닝할 수 있도록 수집, 구성 및 격리된 데이터를 참조하는 데 사용되는 일반적인 용어
데이터베이스 관리 시스템(DBMS)은 데이터베이스를 생성하고 유지 관리하는 일련의 프로그램
플랫 파일과 달리 RDBMS는 많은 테이블과 훨씬 더 큰 데이터 볼륨을 포함하는 데이터 작업 및 쿼리에 최적화
NoSQL은 빅 데이터 처리에 널리 사용
데이터 웨어하우스는 서로 다른 소스에서 오는 정보를 병합하고 ETL 프로세스라고도 하는 추출, 변환 및 로드 프로세스를 통해 분석 및 비즈니스 인텔리전스를 위한 하나의 포괄적인 데이터베이스로 통합하는 중앙 리포지토리로 작동

복잡한 검색 쿼리 및 다중 작업 트랜잭션을 실행하려는 경우문서 기반 데이터베이스는 최선의 선택이 아닐 수 있습니다.MongoDB, DocumentDB, CouchDB 및 Cloudant는 널리 사용되는 문서 기반 데이터베이스입니다.

열 기반 모델은 행 대신 데이터 열로 그룹화된 셀에 데이터를 저장합니다.일반적으로 함께 액세스되는 열의 논리적 그룹화를 호출합니다

열 데이터베이스는 열에 해당하는 모든 셀을 연속 디스크 항목으로 저장하므로 액세스데이터 검색이 매우 빨라집니다.

시계열 데이터, 날씨 데이터 및 IoT 데이터

그래프 기반 데이터베이스는 그래픽 모델을 사용하여 데이터를 표현하고 저장합니다

데이터 마트는 데이터 웨어하우스의 제한된 영역에 대한 분석 기능을 제공하기 때문에,격리된 보안과 격리된 성능을 제공합니다

데이터 마트의 가장 중요한 역할은 비즈니스별 보고 및 분석입니다

데이터 웨어하우스와 달리 데이터 레이크는 제외 없이 모든 소스 데이터를 유지합니다.그리고 데이터에는 모든 유형의 데이터 소스와 유형이 포함될 수 있습니다.

ETL은 원시 데이터를 분석 준비 데이터로 변환하는 방법

로드는 처리된 데이터를 대상 시스템이나 데이터 저장소로 전송하는 단계

데이터 파이프라인은 장기 실행 일괄 쿼리를 모두 지원하는 고성능 시스템

Hadoop은 대용량 데이터의 분산 저장 및 처리를 제공하는 도구 모음

Hadoop은 데이터 저장을 위한 안정적이고 확장 가능하며 비용 효율적인 솔루션을 제공

데이터를 통합하여 엔터프라이즈 데이터 웨어하우스의 비용을 최적화하고 간소화

Hadoop의 4가지 주요 구성 요소 중 하나는 Hadoop 분산 파일 시스템(HDFS)

Hive는 Hadoop을 기반으로 구축된 데이터 쿼리 및 분석을 위한 데이터 웨어하우스

Hive는 대용량 데이터를 읽고, 쓰고, 관리하기 위한 오픈 소스 데이터 웨어하우스 소프트웨어

Hive는 Hadoop을 기반으로 하기 때문에 쿼리지연 시간이 매우 길기 때문에 Hive는 다음과 같은 애플리케이션에 적합하지 않습니다

Hive는 ETL, 보고 및 데이터 분석과 같은 데이터 웨어하우징 작업에 더 적합

Spark는 복잡한 데이터 분석을 수행하도록 설계된 분산 데이터 분석 프레임워크

인메모리 처리를 활용하여 계산 속도를 크게 높입니다

Spark에는 Java, Scala, Python,R 및 SQL.

독립형 클러스터링 기술은 물론 다른 인프라에서도 실행할 수 있습니다

data analyst