- 조직 내에서 필요한 데이터가 어디 있는지 검색, 어떤 건지 이해하고, 사용 방법을 배우게 도와 주는 플랫폼
- 데이터의 위치와 의미를 한눈에 보게 돕는 플랫폼
- 다양한 소스의 데이터 수집 및 평가가 포함되며 데이터의 추세와 패턴을 이해하는 데 자주 사용
- 여러 데이터 소스 연결, 데이터 정리 및 준비, 조직 전체에서 데이터 공유, 비즈니스 프로세스에 대한 통찰력 확보를 위한 분석 수행이 포함
- 즉, 조직 내에 모든 문서들을 전부 중앙화를 시켜 무결성을 유지 및 원하는 데이터를 빠르게 찾을 수 있는 플랫폼
- Ex) 기업 월별 매출, 유저 결제 기록(시간, 가격 등) 등등
- DDP Framework
- Datahub : LinkedIn에서 만든 플랫폼
- Amundsen : Lyft에서 만든 플랫폼
- Databook : Uber에서 만든 플랫폼
- 데이터에 관한 구조화된 데이터, 다른 데이터를 설명하기 위한 데이터
- 사용자는 Naver에 메타데이터를 검색해 원하는 정보만 뽑아 확인할 수 있다
2. BI
- 데이터를 통합 및 분석하여 기업 활동에 연관된 의사결정을 돕는 프로세스
- 여러 곳에 산재되어 있는 데이터를 수집하여 체계적으로 정리하여 사용자가 필요로 하는 정보를 정확한 시간에 제공할 수 있는 환경
- BI Tool
- FineReport
- Qlik Sense(Qlikview)
- Tableau
- PowerBI
- Yellowfin
3. 데이터 웨어하우스(Data Warehouse)
- 짧게 줄여서 DW라고 부름
- 사용자의 의사 결정에 도움을 주기 위하여 기간시스템의 데이터베이스에 축적된 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스
DDP 비교분석
1. DataHub
회사 | 언어 | UI | 권한 부여 | 데이터 소스 |
---|
LinkedIn | yaml | 깔끔 | O | Redshift, Tableau, PowerBI 등 지원 가능 |
URL : https://datahubproject.io/docs/
2. Amundsen
회사 | 언어 | UI | 권한 부여 | 데이터 소스 |
---|
Lyft | SQL | 깔끔 | X | Redshift, Tableau, PowerBI 등 지원 가능 |
URL : https://github.com/amundsen-io/amundsen
3. Apache Atlas
회사 | 언어 | UI | 권한 부여 | 데이터 소스 |
---|
Apache | Python | 깔끔 | O | hive, habse, kafka 등 적은편 |
URL : https://atlas.apache.org/#/
회사 | 언어 | UI | 권한 부여 | 데이터 소스 |
---|
Netflix | Java | 깔끔 | O | s3, Redshift Snowflake 등 적은편 |
URL : https://github.com/Netflix/metacat