DevCourse TIL Day7 Week12 - Data Catalog

김태준·2023년 6월 25일
0

Data Enginnering DevCourse

목록 보기
57/93
post-thumbnail

✅ Data Catalog - meta data center

주요 데이터 기술 스택을 의미하며 대부분의 회사들이 main data governance로 주로 활용한다.

  • 데이터 자산 메타 정보 중앙 저장소
  • (반) 자동화된 메타 데이터 수집
  • 데이터 보안, 보통 메타 데이터만 읽어옴

이때 data assert 종류로는 table, dashboard, message(JIRA,Github,slack), ML 피쳐, pipeline, HR system 등등이 있다.

결국 data catalog란 data assert의 효율적인 관리 프레임워크를 의미하고 다양한 관점에서 데이터를 조직적으로 관리하는 것을 가능케 한다.

  • keyword로 데이터 자산 체킹 가능
  • 해당 데이터 자산의 owner 확인 가능 (technical vs business)
  • 주요 플랫폼 지원 및 주석/문서/태그 등의 협업 기능 제공
  • 출처를 밝히는 data lineage 기능, monitoring, 감사, tracing 기능 제공
  • keyword 등으로 searching 기능 제공 및 데이터 추천 기능도 제공
  • data user persona 기능도 제공

주요 플랫폼은 다음과 같다.
● Data Warehouses & Data Lakes: Redshift, Snowflake, BigQuery
● BI Tools: Looker, Tableau, Redash, Power BI, Mode, Superset
● ELT: DBT, Spark, Hive, PrestoDB
● ETL Orchestration: Airflow
● NoSQL and others
▪ Cassandra, Druid, Elastic Search, Kafka Schema Registry, CSV
● Users: Azure AD, LDAP, …

data catalog를 통해 다음과 같은 이점을 가져갈 수 있다.

  • 가지고 있는 데이터에 대해 통합 뷰 제공
  • 생산성 증대, 인프라 비용 감소 및 위험 감소 (불필요 데이터, 잘못된 데이터 삭제 및 전파 방지)
  • 데이터 변경으로 인한 이슈 감소 (column level lineage, CI/CD Process 연동)
  • 이후 스텝으로 관련 지표(KPI 운영 가능), 자동화된 거버넌스 관련 workflow 추가 및 품질 관련 경보 시스템 구현 가능
profile
To be a DataScientist

0개의 댓글