데이터 카탈로그

neunghi·2023년 1월 9일

🚦 데이터엔지니어링

목록 보기

18/18

데이터 카탈로그란?

데이터 카탈로그는 사용자가 필요한 정보를 빠르게 찾을 수 있도록 하는 회사의 데이터 자산 목록입니다. 카탈로그는 대부분 다른 데이터에 대한 기본 정보를 제공하고 그것이 무엇인지 설명하는 메타데이터입니다. 사용자는 데이터 관리 및 검색 도구와 결합한 데이터 카탈로그를 갖게 됩니다.

빅 데이터 시대에 데이터 카탈로그는 데이터 관리의 핵심 요소입니다.
데이터 작업을 하는 사람들은 데이터 카탈로그를 사용하여 분산적이어서 탐색하기 어려울 수 있는 조직의 전체 소스에서 필요한 데이터 자산을 검색합니다. 성공적인 데이터 카탈로그를 구현하면 필요한 데이터를 빠르게 찾을 수 있기 때문에 데이터 분석의 속도와 품질에서 큰 차이를 이루어낼 수 있습니다.

데이터 카탈로그 장점

모든 소스를 제공

데이터 카탈로그는 사용자에게 올바른 형식, 올바른 보기, 적절한 시간에 적절한 제어 수준을 갖춘 모든 소스를 제공할 수 있습니다. 데이터 카탈로그를 사용하면 다중 클라우드 컨텍스트의 다양한 소스에서 제공하는 모든 정보를 찾을 수 있고 즉시 사용할 수 있습니다. 즉 사용자는 실시간 컨텍스트에서 모델을 구축하고 배포할 수 있습니다.

메타데이터 관리 자동화

데이터 카탈로그를 사용하면 비즈니스 목적으로 데이터를 사용해야 하는 데이터 분석가에게 컨텍스트를 제공하는 것 외에도 메타데이터 관리를 자동화할 수 있습니다. 이 자동화를 통해 데이터 카탈로그는 이해 관계자들이 필요에 따라 데이터를 관리하고 수집할 수 있는, 조직에서 가장 신뢰할 수 있는 단일 데이터 소스가 될 수 있습니다.

라이브러리는 데이터 카탈로그를 설명하는 데 사용되는 일반 매개물입니다. 라이브러리는 정보 자산(예: 책)을 비축하고 해당 정보 자산을 구성하는 시스템이 필요하기 때문에 이상적인 비유라는 것이 증명되었습니다. 이 비유에서 책은 정보 자산의 역할을 하는 반면 제목, 저자, ISBN 및 장르와 같은 책에 대한 정보는 메타데이터 역할을 합니다. 책, 해당 위치 및 기타 정보를 식별하기 위해 유지 관리되는 카탈로그는 데이터 카탈로그가 정확히 작동하는 방식입니다. 이를 통해 독자들은 이용 가능한 책의 목록을 찾고, 취향에 따라 분류하고, 필요한 책을 빨리 고를 수 있습니다.

메타데이터

"데이터를 위한 데이터"

'속성정보'라고도 불리는 메타데이터는 '데이터에 관한 구조화된 데이터', '다른 데이터를 설명해 주는 데이터'이다.
대량의 정보 가운데에서 찾고 있는 정보를 효율적으로 찾아내서 이용하기 위해 일정한 규칙에 따라 콘텐츠에 대하여 부여되는 데이터이다.
예를들면, (인스타그램의 해시태그('#')와 유사한 역할)

콘텐츠의 위치와 내용, 작성자에 관한 정보, 권리 조건, 이용 조건, 이용 내력 등이 기록된다.

목적 : 1. 데이터를 표현하기 위한 목적
2. 데이터를 빨리 찾기 위한 목적 ( 정보의 인덱스 역할 )

메타데이터 예시

데이터를 표현하기 위한 목적으로 사용되는 메타데이터의 가장 좋은 예가 HTML 태그이다.

데이터에 관한 구조화라는 것은 HTML 태그 안에 head나 body가 있으며, body 안에는 table이 올 수 있고, table 안에는 tr이, tr 안에는 td가 올 수 있는 것처럼 데이터가 상위에서 하위로 나무(tree) 형태의 구조를 이루고 있다는 의미이다.

사용자는 메타데이터를 이용하여 자기가 원하는 특정 데이터(정보)를 검색엔진 등으로 쉽게 찾아낼 수 있다.

영화의 한 신에서 거기 나오는 배우의 데이터를 추출하거나 축구 시합의 비디오에서 골 인 장면만을 뽑아낼 수 있고, 또 이 자료들을 편집할 수 있는 것도 메타데이터의 기능이다.
메타데이터는 데이터를 사용하는 사람에게는 보이지 않는다. 그러나 기계(컴퓨터)는 메타데이터의 내용을 이해하고 이를 이용한다. 즉, 웹 자료나 다른 것들에 관해 기계가 이해할 수 있는 정보가 메타데이터인 것입니다.

neunghi

나는 능히 할 수 있는 버섯이다! 🍄‍🟫

이전 포스트