배경
조직 내에서 필요한 데이터가 어디 있는지 빠르게 검색하고, 어떤 건지 이해하고, 사용 방법을 배우게 도와 주는 플랫폼
- 생산성
- 데이터의 양과 종류가 늘어갈수록, 새로운 머신러닝 모델을 만들 때나 adhoc 분석 등을 할 시 어떤 데이터를 봐야 할지 알기 힘들진다.
- 커뮤니케이션
- 데이터사이언티스트는 data discovery에 약 20%의 시간을 사용
메타데이터
-
메타데이터가 제공하는 정보들
- 맥락: 사람이 이해하는데 도움을 주는 정보들. 예를 들어, 데이터의 존재 여부, 설명, 태그 등
- 행동: 데이터가 어떻게 생성되고, 사용되는지 알려주며, 데이터 오너십, 데이터 사용자를 나타내는 데이터
- 변화: 해당 데이터가 어떻게 변화 했는지를 보여주는 데이터. 대표적인 예로, 스키마 변화
-
메타데이터가 설명해주는 데이터 예제
- 데이터 저장소: Hive, MySQL, Redshift, etc
- 대시보드: Tableau 대시보드, BI 관련 정보
- 스트림: Apache Kafka, AWS Kinesis 스트리밍 정보
- Processing: ETL jobs, ML workflow
- 사용자
-
메타데이터는 여러 가지 데이터 저장소, 대시보드, 스트림, 등에서 나온 맥락, 행동, 그리고 변화에 관련된 정보를 제공
데이터를 찾고, 이해하고, 사용하기 위한 기능들
- 데이터를 검색 또는 더 똑똑한 방법들로 찾기
- 원하는 데이터를 찾기위한 기본 방법은 컬럼명,테이블과 컬럼 설명, 사용자가 입력한 설명이나 코멘트 등의 메타데이터를 ElasticSearch 에서 검색
- 많은 검색결과가 있다면 이에 대한 우선순위를 매기는게 필요 (테이블이 얼마나 많이 사용되는가로 순위를 결정)
- 데이터를 스키마, 미리보기, 통계, 계보(Lineage)로 이해하기
- 테이블을 이해하는 기본 정보는 데이터 스키마: 컬럼명, 데이터 타입, 설명(Description)
- 미리 계산된 컬럼 단위의 통계도 제공: 컬럼별 Row수, Null인 Row수, 최대/최소/평균/중간값/표준편차, 고유한 Row수, 날짜 컬럼이라면 데이터의 전체 기간 범위
- 데이터 계보를 제공해서 앞뒤 의존성 관계도 확인: ETL 작업(Airflow 로 스케줄링 되는)의 경우 스케줄/지연 여부등을 확인할수 있음.
- 다른 사용자의 이용형태를 통해서 데이터 사용법을 배우기
오픈소스 DDP들 비교
- DataHub (LinkedIn)
- 2020년 2월에 공개
- 검색, 테이블스키마, 오너십, 계보 기능 지원
- Dataset, User, Group 세개의 엔티티 지원. Schemas/Jobs/Metrics/Dashboards 등의 엔티티 추가 예정
- Hive, Kafka, RDB 메타데이터 지원 ( 내부에선 더 많이 지원하며, 더 공개될 수도 있음 )
- Expedia, TypeForm 등이 채택했으며 MS,Morgan Stanley, Orange Telecom, ThoughtWorks 등도 POC 중
- Amundsen (Lyft)
- 2019년 10월에 공개
- 검색, 추천, 미리보기/컬럼통계/소유자/주사용자 들이 잘 표현된 테이블 상세 페이지 지원. 계보기능은 없지만 추가예정
- Data Quality System 과의 연동도 제공 예정 (아마도 Great Expectations - https://greatexpectations.io/)
- 훌륭한 커뮤니티가 있음 : BigQuery/Redshift/Apache Atlas 등의 연동등을 개발해서 기여함
- 15종 이상의 데이터 소스( Redshift, Cassandra, Hive, Snowflake 및 각종 RDB), Tableau,Redash, Mode Analytics 대시보드, Airflow 등과 연동을 지원
- 문서화도 잘 되어있고, Docker 로 로컬에서 테스트 가능
- Asana, Instacart, iRobot, Square 를 포함 30개 이상의 조직이 도입.
- 2020 7월에 Linux AI 재단의 새 인큐베이션 프로젝트로 조인.
- Socar Datahub VS Amundsen 비교 분석
- Socar, 뱅크셀러드의 datahub 선택 이유
- UI/UX 사용성의 편리함
- Datahub가 문서화, 오너십, 권한, 통계, 데이터 계보 관점에서 더 다양하고 풍부한 기능들을 지원
- 플랫폼 개발자 측면에서도 메타데이터 주입 시 Datahub가 더 편리
- 빠르고 풍부한 서포트
사용기업
Reference