LinkedIn에서 만든 데이터의 위치와 의미를 한눈에 보게 돕는 플랫폼이 “데이터 디스커버리 플랫폼”(DDP, Data Discovery Platform)으로 비슷한 종류의 플랫폼으로는 Lyft에서 만든 Amundsen과 Uber에서 만든Databook 등이 있다.
이런 DDP들은 기본적으로 데이터의 시각화(데이터 리니지), 문서화를 통해 회사의 데이터의 구조와 R&R 파악을 용의하게 해주며 뿐만 아니라 데이터 거버넌스 측면에서 데이터 품질과 전체적인 규약들을 중앙에서 관리 할 수 있도록 도와줍니다.
Airflow, Athena, BigQuery, CSV, Mysql, dbt 등 다양한 데이터 원천들과 통합 할 수 있다.
현직 데이터를 다루어보면서 문서화에 대해서 많이 생각을 하게 된다. Notion이나 mysql 테이블 설명에 최대한 잘 적어보기 위해 노력했지만 한계나 있었다. 하지만 datahub를 활용해 보면서 데이터 리니지에 대한 시각화를 통해 볼 수 있고 컬럼명이나 테이블명에 통일성을 가지는 것에도 탁월한 효과를 볼 수 있었다.
물론 작업시간은 조금 더 길어지겠지만 더 좋은 데이터 거버넌스를 위한 한걸음 아닐까...