데이터 생태계 - 2

Koo·2023년 8월 21일
post-thumbnail

1. Languages for Data Professional

SQL(Structured Query Language)

  • 데이터를 INSERT, UPDATE, DELETE
  • 새로운 데이터베이스, 테이블이나 뷰를 생성
  • Stored Procedure를 작성
  • 이점
    • 플랫폼과 독립적으로 사용 가능
    • 다양한 데이터베이스와 데이터 저장소에 쿼리를 사용 가능
    • 간단한 문법
    • 많은 양의 데이터를 빠르고 효율적으로 조회 가능

프로그래밍 언어

Python

  • 오픈소스
  • 다목적으로 사용 가능한 고수준 언어
  • 쉬운 학습 난이도
  • 대량의 데이터를 처리하기 위한 numpy, pandas 등의 라이브러리

R

  • 오픈소스
  • 통계 소프트웨어를 개발하기 위해 사용
  • 다양한 시각화
  • 플랫폼 독립적으로 다양한 프로그래밍 언어와 함께 사용 가능
  • 함수를 이용한 확장성

Java

  • 객체지향, 클래스 기반 언어
  • 플랫폼에 독립적
  • 데이터 전처리와 데이터 입출력, 통계 분석, 시각화 등에 사용 가능
  • 빅데이터 프레임워크에 사용 - Hadoop, Hive, Spark ...

쉘 스크립트

Unix/Linux Shell

  • 파일 관리
  • 프로그램 실행
  • 디스크 백업, 시스템 로그 관리 등 관리자 업무
  • 배치 실행
  • 루틴 백업
  • ...

Powershell

  • JSON, CSV, XML, REST API 등 structured, semi-structured data에 대해 최적화
  • 필터링, 정렬, 그룹, 비교 등 데이터 파이프라인에 사용
  • 데이터 마이닝, 차트 시각화, 대쉬보드 등에 사용

2. Metadata & Metadata Management

메타데이터란?

  • 데이터를 설명하기 위한 데이터
  • 메타데이터는 3가지로 구분됨
    • technical metadata
    • process metadata
    • business metadata

Technical Metadata

기술적 측면에서 데이터 형식을 정의
ex)

  • "데이터베이스에 있는 테이블의 정보"를 저장하는 데이터베이스
    • 각 테이블에 있는 행과 열의 개수, 테이블의 이름 등을 저장
  • 데이터 카탈로그
    • 데이터웨어하우스에 있는 데이터베이스의 이름
    • 데이터베이스의 있는 열의 이름
    • 각 열이 포함되어 있는 모든 테이블의 이름
    • 각 열이 포함하고 있는 데이터의 타입

→ 데이터 카탈로그는 관계형 데이터베이스를 위한 기술적 메타 데이터를 저장함

Process Metadata

  • 데이터 웨어하우스나 회계 시스템, 고객 관계 관리 도구 등의 비즈니스 시스템 뒤에서 작동하는 프로세스들
  • 기업은 다양한 소스로부터 프로세스 메타 데이터를 수집하고 처리 가능
  • 다음과 같은 데이터들이 해당됨
    • 프로세스의 시작과 종료
    • 디스크 사용량
    • 데이터가 어디에서 어디로 이동했는지
    • 주어진 시간동안 얼마만큼의 사람이 시스템에 접근하는지

Business Metadata

  • 데이터를 탐색하고 분석하는 사용자는 데이터 발견에 관심이 있음
  • 비즈니스 메타데이터는 쉽게 해석할 수 있는 방식으로 설명된 데이터
    • 어떻게 데이터를 획득했는지
    • 데이터가 무엇을 나타내고 표현하는지
    • 데이터들가 어떤 관계를 나타내는지

메타데이터가 중요한 이유

  • 메타 데이터 관리를 잘하면 데이터 검색, 반복성, 거버넌스, 접근성 등을 향상 가능
  • 메타 데이터는 기업과 관련된 비즈니스 정보와 데이터 리니지(data lineage)를 이해하는 것을 돕기 때문에 데이터 거버넌스를 향상시켜줌
  • 데이터 리니지는 데이터의 생성부터 변환, 이동 등 데이터가 어떻게 변화했는지를 알려주는 정보
  • 데이터 거버넌스는 데이터의 전체 수명 주기 동안 높은 데이터 품질을 유지하고 비즈니스 목표를 지원할 수 있도록 데이터 제어를 구현하는 데이터 관리 개념
    • 데이터 거버넌스는 가용성, 유용성, 일관성, 데이터 무결성 및 데이터 보안이 포함

메타데이터 관리를 위한 툴

  • IBM InfoSphere Information Server
  • CA Erwin Data Modeler
  • Oracle Warehouse Builder
  • SAS Data Integration Server
  • Talend Data Fabric
  • Alation Data Catalog
  • SAP Information Steward
  • Microsoft Azure Data Catalog
  • IBM Watson Knowledge Catalog
  • Oracle Enterprise Metadata Management (OEMM)
  • Adaptive Metadata Manager
  • Unifi Data Catalog
  • data.world
  • Information Enterprise Data Catalog
profile
스터디를 해보자

0개의 댓글