1. Languages for Data Professional
SQL(Structured Query Language)
- 데이터를 INSERT, UPDATE, DELETE
- 새로운 데이터베이스, 테이블이나 뷰를 생성
- Stored Procedure를 작성
- 이점
- 플랫폼과 독립적으로 사용 가능
- 다양한 데이터베이스와 데이터 저장소에 쿼리를 사용 가능
- 간단한 문법
- 많은 양의 데이터를 빠르고 효율적으로 조회 가능
프로그래밍 언어
Python
- 오픈소스
- 다목적으로 사용 가능한 고수준 언어
- 쉬운 학습 난이도
- 대량의 데이터를 처리하기 위한 numpy, pandas 등의 라이브러리
R
- 오픈소스
- 통계 소프트웨어를 개발하기 위해 사용
- 다양한 시각화
- 플랫폼 독립적으로 다양한 프로그래밍 언어와 함께 사용 가능
- 함수를 이용한 확장성
Java
- 객체지향, 클래스 기반 언어
- 플랫폼에 독립적
- 데이터 전처리와 데이터 입출력, 통계 분석, 시각화 등에 사용 가능
- 빅데이터 프레임워크에 사용 - Hadoop, Hive, Spark ...
쉘 스크립트
Unix/Linux Shell
- 파일 관리
- 프로그램 실행
- 디스크 백업, 시스템 로그 관리 등 관리자 업무
- 배치 실행
- 루틴 백업
- ...
Powershell
- JSON, CSV, XML, REST API 등 structured, semi-structured data에 대해 최적화
- 필터링, 정렬, 그룹, 비교 등 데이터 파이프라인에 사용
- 데이터 마이닝, 차트 시각화, 대쉬보드 등에 사용
메타데이터란?
- 데이터를 설명하기 위한 데이터
- 메타데이터는 3가지로 구분됨
- technical metadata
- process metadata
- business metadata
기술적 측면에서 데이터 형식을 정의
ex)
- "데이터베이스에 있는 테이블의 정보"를 저장하는 데이터베이스
- 각 테이블에 있는 행과 열의 개수, 테이블의 이름 등을 저장
- 데이터 카탈로그
- 데이터웨어하우스에 있는 데이터베이스의 이름
- 데이터베이스의 있는 열의 이름
- 각 열이 포함되어 있는 모든 테이블의 이름
- 각 열이 포함하고 있는 데이터의 타입
→ 데이터 카탈로그는 관계형 데이터베이스를 위한 기술적 메타 데이터를 저장함
- 데이터 웨어하우스나 회계 시스템, 고객 관계 관리 도구 등의 비즈니스 시스템 뒤에서 작동하는 프로세스들
- 기업은 다양한 소스로부터 프로세스 메타 데이터를 수집하고 처리 가능
- 다음과 같은 데이터들이 해당됨
- 프로세스의 시작과 종료
- 디스크 사용량
- 데이터가 어디에서 어디로 이동했는지
- 주어진 시간동안 얼마만큼의 사람이 시스템에 접근하는지
- 데이터를 탐색하고 분석하는 사용자는 데이터 발견에 관심이 있음
- 비즈니스 메타데이터는 쉽게 해석할 수 있는 방식으로 설명된 데이터
- 어떻게 데이터를 획득했는지
- 데이터가 무엇을 나타내고 표현하는지
- 데이터들가 어떤 관계를 나타내는지
메타데이터가 중요한 이유
- 메타 데이터 관리를 잘하면 데이터 검색, 반복성, 거버넌스, 접근성 등을 향상 가능
- 메타 데이터는 기업과 관련된 비즈니스 정보와 데이터 리니지(data lineage)를 이해하는 것을 돕기 때문에 데이터 거버넌스를 향상시켜줌
- 데이터 리니지는 데이터의 생성부터 변환, 이동 등 데이터가 어떻게 변화했는지를 알려주는 정보
- 데이터 거버넌스는 데이터의 전체 수명 주기 동안 높은 데이터 품질을 유지하고 비즈니스 목표를 지원할 수 있도록 데이터 제어를 구현하는 데이터 관리 개념
- 데이터 거버넌스는 가용성, 유용성, 일관성, 데이터 무결성 및 데이터 보안이 포함
메타데이터 관리를 위한 툴
- IBM InfoSphere Information Server
- CA Erwin Data Modeler
- Oracle Warehouse Builder
- SAS Data Integration Server
- Talend Data Fabric
- Alation Data Catalog
- SAP Information Steward
- Microsoft Azure Data Catalog
- IBM Watson Knowledge Catalog
- Oracle Enterprise Metadata Management (OEMM)
- Adaptive Metadata Manager
- Unifi Data Catalog
- data.world
- Information Enterprise Data Catalog