πŸ“’ Data Catalog

KimdongkiΒ·2024λ…„ 6μ›” 8일
0

DB

λͺ©λ‘ 보기
27/33

πŸ“Œ 데이터 μΉ΄νƒˆλ‘œκ·Έ


  • 데이터 μžμ‹  메타 정보 쀑앙 μ €μž₯μ†Œ

  • 데이터 κ±°λ²„λ„ŒμŠ€μ˜ 첫 걸음

    • λ§Žμ€ νšŒμ‚¬μ—μ„œ 데이터 μΉ΄νƒˆλ‘œκ·Έλ₯Ό 데이터 κ±°λ²„λ„ŒμŠ€ 툴둜 μ‚¬μš©ν•˜κ±°λ‚˜ 데이터 μΉ΄νƒˆλ‘œκ·Έ μœ„μ— μ»€μŠ€ν…€ κΈ°λŠ₯을 κ΅¬ν˜„ν•œλ‹€.
  • 데이터 μΉ΄νƒˆλ‘œκ·Έμ˜ μ€‘μš”ν•œ κΈ°λŠ₯

    • (반)μžλ™ν™”λœ 메타 데이터 μˆ˜μ§‘
    • 데이터 λ³΄μ•ˆ, 보톡 메타 λ°μ΄ν„°λ§Œ μ½μ–΄μ˜¨λ‹€.

πŸ“Œ 데이터 μžμ‚°μ˜ μ’…λ₯˜


  • ν…Œμ΄λΈ” (DB)
  • DashBoard
  • λ¬Έμ„œ/λ©”μ„Έμ§€ (Slack, Jira, Github, ...)
  • ML Feature
  • 데이터 νŒŒμ΄ν”„λΌμΈ
  • User (HR System)

πŸ“Œ 데이터 μžμ‚°μ˜ 효율적인 관리 ν”„λ ˆμž„μ›Œν¬


  • λ‹€μ–‘ν•œ κ΄€μ μ—μ„œ 데이터λ₯Ό 쑰직적으둜 κ΄€λ¦¬ν•œλ‹€.
  • Business/Data μš©μ–΄ vs. Tag
  • 데이터 μ˜€λ„ˆ (Business & Technical)
  • ν‘œμ€€ν™”λœ λ¬Έμ„œ ν…œν”Œλ¦Ώ

πŸ“Œ 데이터 μΉ΄νƒˆλ‘œκ·Έ μ£Όμš” κΈ°λŠ₯


  • μ£Όμš” 데이터 ν”Œλž«νΌ 지원
  • Business μš©μ–΄μ‚¬μ „ (Business Glossary)
  • 주석/λ¬Έμ„œ/νƒœκ·Έ λ“± ν˜‘μ—… κ°€λŠ₯
  • 데이터 λ¦¬λ‹ˆμ§€
  • 데이터 λͺ¨λ‹ˆν„°λ§, 감사, νŠΈλ ˆμ΄μ‹±
  • κ°•λ ₯ν•œ 검색 κΈ°λŠ₯ (톡합 검색, NLP 검색)
  • 데이터 μΆ”μ²œ κΈ°λŠ₯
  • 데이터 μœ μ € νΌμ†Œλ‚˜ (ex: λ§ˆμΌ€νŒ… 뢄석가)

πŸ“Œ 데이터 μΉ΄νƒˆλ‘œκ·Έ κΈ°λŠ₯ - μ£Όμš” 데이터 ν”Œλž«νΌ 지원


  • Data Warehouse & Data Lakes : Redshift, Snowflake, BigQuery
  • BI Tools : Looker, Tableau, Redash, Power BI, Mode, Superset
  • ELT : DBT, Spark, Hive, PrestoDB
  • ETL Orchestration : Airflow
  • NoSQL & others : Cassandra, Druid, Elastic Search, Kafka Schema Registry, CSV
  • Users : Azure AD, LDAP, ...

πŸ“Œ DBT : Templateν™”λœ SQL


  • DBT Code = SQL + Jinja template = Templateν™”λœ SQL

    • κ°œλ°œμžκ°€ μž‘μ„±ν•œ DBT codeλ₯Ό νƒ€κ²Ÿ μ‹œμŠ€ν…œμ— λ§žλŠ” SQL둜 λ°”κΎΈμ–΄ μ‹€ν–‰ν•΄μ€€λ‹€.
  • λͺ¨λΈλΆ€ν„° μž‘μ„±ν•˜λŠ”λ° μ΄λŠ” ν•˜λ‚˜μ˜ SELECT 문이라고 보면 μ’‹λ‹€.

    • A model == A SELECT statement
  • 여기에 λ‹€μ–‘ν•œ 검증 방법을 μΆ”κ°€ν•  수 μžˆλ‹€.

    • Generic tests
    • One-off tests
  • ν…Œμ΄λΈ”μ˜ μŠ€λƒ…μƒ·μ„ μΆ”κ°€ν•  수 μžˆλ‹€.


πŸ“Œ 데이터 κ±°λ²„λ„ŒμŠ€ κ΄€μ μ—μ„œ 데이터 μΉ΄νƒˆλ‘œκ·Έμ˜ μ€‘μš”μ„±


  • μš°λ¦¬κ°€ κ°–κ³  μžˆλŠ” 데이터 μžμ‚°μ— λŒ€ν•œ 톡합 λ·°λ₯Ό μ œκ³΅ν•œλ‹€.

  • 생산성 μ¦λŒ€ : μ„€λ¬Έμ΄λ‚˜ 데이터 νƒ€κ²Ÿμ˜ κ°μ†Œλ‘œ 확인가λŠ₯ν•˜λ‹€.

  • μœ„ν—˜ κ°μ†Œ : 잘λͺ»λœ κ²°μ •κ³Ό κ°œμΈμ •λ³΄λ“±μ˜ μ „νŒŒ λ°©μ§€

  • 인프라 λΉ„μš© κ°μ†Œ : λΆˆν•„μš”ν•œ μ •λ³΄μ˜ 생성 방지와 μ•ˆ μ“°μ΄λŠ” 데이터셋을 μ‚­μ œν•  수 μžˆλ‹€.

  • 데이터 νƒ€κ²Ÿ κ°μ†Œ

  • 데이터 λ³€κ²½μœΌλ‘œ μΈν•œ 이슈 κ°μ†Œ

    • 컬럼 레벨 λ¦¬λ‹ˆμ§€μ™€ CI/CD ν”„λ‘œμ„ΈμŠ€ 연동

πŸ“Œ 데이터 μΉ΄νƒˆλ‘œκ·Έ 이후 λ‹€μŒ Step


  • μžλ™ν™”λœ 데이터 κ±°λ²„λ„ŒμŠ€ κ΄€λ ¨ μ›Œν¬ν”Œλ‘œμš°λ₯Ό μΆ”κ°€

  • ν’ˆμ§ˆ κ΄€λ ¨ 경보 μ‹œμŠ€ν…œ κ΅¬ν˜„

    • μ€‘μš” Metadata λ³€κ²½μ΄λ‚˜ 데이터 ν’ˆμ§ˆ 이슈 λ°œμƒμ‹œ 경보
    • λ‚΄κ°€ κ΄€μ‹¬μžˆλŠ” 데이터 μžμ‚°μ˜ μ˜€λ„ˆ λ³€κ²½μ‹œ 경보 (ex: 맀좜 μ •μ˜ λ³€κ²½)
  • 데이터 κ΄€λ ¨ μ§€ν‘œ 리뷰 λ―ΈνŒ… 운영


0개의 λŒ“κΈ€