Data Fabric

zero_eon_0421·2023년 2월 2일
0
post-thumbnail

1. 데이터 패브릭이란?

Data Fabric은 하이브리드 멀티 클라우드 환경을 포괄하는 다양한 엔드포인트에서 일관된 기능을 제공하며 클라우드, 온프레미스, 에지 장치 전반에서 데이터 관리 관행과 실무를 표준화하는 강력한 아키텍처 및 데이터 서비스 세트이다.


Data Fabric이 등장하게 된 배경은 Data lake에서 시작되었다.
데이터 레이크는 데이터 웨어하우스에서 진화된 기술로 정제된 정형 데이터만 보관한다. 정형, 반정형, 비정형 등 제한 없이 모든 데이터를 보관한 저장소이며 로우 데이터를 저장하기만 하면 언제든지 정제, 가공이 가능하다. 하지만 사용성이 떨어지는 수많은 데이터를 저장하여 데이터의 늪에 빠질 가능성이 있다. 다른 요구사항을 가진 비즈니스 부서 내에 데이터를 효율적으로 공급하는 것과 방대한 데이터를 관리하는 것이 힘들어지면서 데이터 패브릭이 등장했다.

데이터 패브릭은 데이터를 모으는데 주력했던 기존 방법론과 달리 데이터를 정리해 원하는 데이터에 쉽게 접근하는 전략을 말한다. 방대하고 다양한 데이터를 하나의 확장 가능한 플랫폼으로 통합시켜 보안이 보장된 상태에서 쉽게 데이터에 접근하고 이동이 가능한 환경을 제공하는 아키텍처 전략으로, 클라우드 전환 등 더욱 복잡해지는 IT 환경에서 가장 효율적인 데이터 관리 기술로 주목받고 있다.

데이터 패브릭은 아키텍처, 데이터 관리 및 통합 소프트웨어, 공유 데이터로 구성 종단 간 데이터 통합 및 관리 솔루션으로 조직의 데이터 관리를 지원하며, 전 세계 조직의 모든 구성원에게 실시간으로 통합되고 일관된 사용자 경험과 데이터 액세스를 제공한다. 또한 다양한 종류의 애플리케이션, 플랫폼 및 데이터를 저장하는 장소에 관계없이 조직을 도와 데이터를 관리하여 복잡한 데이터 문제와 사용 사례를 해결할 수 있도록 설계되었으며, 데이터 패브릭을 사용하면 분산 데이터 환경에서 원활한 액세스 및 데이터 공유가 가능해진다.


데이터 패브릭에서 중요한 것은 가상화, 카탈로그 기술이다.
데이터 가상화는 다양한 데이터를 복사하거나 물리적 이동 없이 하나의 데이터로 빠르게 통합하는 기술이다. 데이터 이동 없이 가상의 저장소를 만들어 원천 데이터를 활용하는 개념으로 외부 소스 데이터에 빠르게 직접 액세스할 수 있는 데이터 가상화 계층을 제공한다.
데이터 카탈로그는 메타데이터를 수집해 데이터를 품질에 따라 분류하는 것으로, 머신러닝을 이용해 카탈로그를 뒤져 데이터의 위치, 속성, 사이즈 등을 알 수 있도록 가상화레이어를 연결해 데이터를 가져오는 기술이다.

2. 데이터 패브릭의 장점

Data Fabric은 데이터 가시성 및 통찰력, 데이터 액세스 및 제어, 데이터 보호 및 보안을 제공한다.

Data Fabric은 지리적으로 다양하게 배치되어 있고 여러 데이터 소스를 갖고 있으며 복잡한 데이터 문제 또는 사용 사례에 직면한 조직에 가장 적합하다. Data Fabric은 데이터를 통합하고 처리하기 위한 빠른 답이 아닌 데이터 가상화로 전환할 수 있다.

하드웨어 기능의 지속적인 발전에 따라 세계화는 이전에 연결되지 않은 지역으로의 확장으로 전환되고 있다. 연결 속도가 급격히 빨라짐에 따라 조직은 장치 및 서비스의 데이터에 압도될 수 있다. 데이터는 꽤 오랫동안 통찰력을 위해 사용되어 왔지만 데이터 패브릭은 다음을 포함하는 솔루션을 제공한다.
시스템 변경을 가능하게 하고 필요에 따라 적응 및 조정하며 모든 운영 체제 및 스토리지 시스템에서 작동하는 애자일 모델
엄청나게 비싼 하드웨어 또는 고도로 훈련되고 값비싼 직원에 대한 투자 없이 최소한의 간섭으로 확장 가능
접근성 및 실시간 정보 흐름을 유지하면서 최대의 무결성 제공 및 규정 준수

3. 데이터 패브릭의 단점 (위험성)

데이터 패브릭의 한 지점에서 다른 지점으로 데이터가 전송될 때 조직에서 증가하는 우려는 데이터 보안에 대한 위협이다. 데이터 전송을 위한 인프라에는 보안 침해로부터 안전을 보장하기 위해 보안 방화벽과 프로토콜이 내장되어 있어야 한다. 조직을 목표로 한 사이버 공격이 증가함에 따라 데이터 주기의 모든 지점에서 데이터 보안이 가장 중요해졌다.

4. 데이터 패브릭을 사용해야 하는 이유

데이터와 애플리케이션이 어디에 있든 상관없이 이를 모니터링하고 관리할 수 있다.

Data Fabric은 유연하고 안전하며 적응력이 뛰어난 통합 데이터 아키텍처이다. Data Fabric은 다양한 방법으로 최고의 클라우드, 코어, 에지를 활용할 수 있는 새로운 전략적 엔터프라이즈 스토리지 운영 방식이다. Data Fabric은 온프레미스, 퍼블릭 및 프라이빗 클라우드, 에지 및 사물 인터넷 장치를 비롯한 모든 위치에 연결할 수 있으며, 중앙 집중식으로 관리된다.

Data Fabric은 다양한 데이터 관리 기능을 기반으로 구축되므로 통합 환경 전체에서 정합성을 보장할 수 있다. 자동화를 통해 번거로운 관리 업무를 줄이고, 개발/테스트 및 구축 속도를 높인다.

이 통합 플랫폼을 통해 데이터 및 애플리케이션의 위치와 관계없이 스토리지 비용, 성능 및 효율성을 모니터링 할 수 있다. 하이브리드 클라우드 환경에 대한 실질적인 통찰력을 확보했다면 문제 해결, 보안 및 규정 준수 위험 해결, 컴퓨팅 작동 및 중단 제어 등을 신속하게 수행할 수 있다.

지속적으로 최적화할 수 있고, 최적화를 통해 스토리지에서 상당한 비용을 절약하면서도 최고 수준의 암호화로 데이터를 보호할 수 있다.

모든 데이터 중심 조직은 시간, 공간, 다양한 소프트웨어 유형 및 데이터 위치의 장애를 극복하는 전체적인 접근 방식을 필요로 합니다. 데이터는 필요로 하는 사용자가 접속할 수 있어야 하며 방화벽으로 잠겨 있거나 다양한 위치에 단편적으로 위치하지 않아야 합니다. 안전하고 효율적인 통합 환경 및 미래를 대비한 데이터 솔루션이 데이터 패브릭이다.

전 세계적으로 네트워크 환경에 진입하는 이해 관계자의 수가 증가하고 있다. 모든 사람이 인터넷에 연결되어 있고 모든 플랫폼이 데이터 소스가 되었다. 데이터 가치의 극대화는 복잡한 문제있으며 아래와 같다.
다중 온프레미스 및 클라우드 위치에 위치
정형 및 비정형 데이터
데이터 유형의 다양성
플랫폼 환경의 다양성
다양한 파일 시스템, 데이터베이스 및 SaaS 애플리케이션에서 유지 관리
데이터가 기하급수적으로 증가함에 따라 이러한 문제가 증가하고 있다.

이러한 문제와 다양성으로 인해 데이터에 쉽게 접속하거나 사용하는 것이 복잡해지며, 조직이 AI 및 ML을 제품화하거나 운영하려면 데이터를 수집, 변환 및 처리해야한다.
오늘날 대부분의 조직은 사일로에서 문제를 처리하는 경향이 있으며 이로부터 조직 전체에서 데이터를 관리하는 방법이 다양해지게 된다. 이 솔루션을 사용하면 특정 그룹에서 데이터를 사용할 수 있지만 회사 전체에서 데이터에 접속하는 것이 거의 불가능해지며 데이터를 유휴 상태로 방치하는 경우가 많다.
포괄적인 데이터 접속 및 사용이 부족하면 인프라에 대한 투자 수익률이 떨어지고, 유용한 예측을 위한 데이터 가용성이 부족하며, 생산성이 저하된다. 데이터 패브릭은 이런 문제를 해결합니다.

5. 데이터 패브릭 구현

데이터패브릭은 OLTP(온라인 트랜잭션 처리) 개념으로 시작한다. 온라인 트랜잭션 처리에서는 모든 트랜잭션에 대한 세부정보가 데이터베이스에 삽입, 업데이트 및 업로드된다. 데이터는 구조화되고 정리되며 추가 사용을 위해 중앙 사일로에 저장된다. 패브릭의 어느 지점에서나 모든 데이터 사용자가 원시 데이터를 가져와 여러 결과를 도출할 수 있으므로 조직에서 데이터를 활용하여 데이터를 확장, 조정 및 개선할 수 있다.

  • 애플리케이션 및 서비스 : 데이터 획득에 필요한 인프라가 구축되는 곳으로 고객이 조직과 상호 작용할 수 있는 앱 및 그래픽 사용자 인터페이스(GUI) 개발이 포함된다.
  • 생태계 개발 및 통합 : 데이터를 수집, 관리, 저장하는 데 필요한 생태계를 생성한다. 고객의 데이터는 데이터 손실을 방지하면서 데이터 관리자와 스토리지 시스템으로 전송되어야 한다.
  • 보안 : 모든 소스에서 수집한 데이터는 적절한 보안 기능으로 관리되어야 한다.
  • 스토리지 관리 : 데이터는 접속 가능하고 효율적인 방식으로 저장되며 필요할 때 확장할 수 있어야 한다.
  • 전송 : 조직의 지리적 위치의 모든 지점에서 데이터에 접속하는 데 필요한 인프라를 구축해야 한다.
  • 엔드포인트 : 스토리지 및 액세스 포인트에서 소프트웨어 정의 인프라를 개발하여 실시간 통찰력을 얻어야 한다.

6. 머신러닝이 데이터 패브릭과 작동하는 방식

기존의 데이터 통합 기술을 사용하는 경우에는 대부분의 시간을 데이터에 대해 배우는 것보다 데이터 물류 업무에 할애한다. 이는 통찰력을 더 빨리 얻고자하는 목적에 적합하지 않다.

데이터 패브릭은 기본적으로 모든 데이터를 하나로 통합할 뿐만 아니라 머신러닝을 사용하여 데이터를 변환하고 처리하여 패턴과 통찰력을 찾는 데이터 운영 계층이다. 데이터 패브릭이 없으면 이 모든 것이 각각의 개별 애플리케이션에서 진행해야 하므로 지속 가능한 솔루션이 아니다.

데이터 패브릭은 AI 및 ML의 요구 사항을 충족하는 데이터를 지속 가능한 수준에서 자동으로 준비할 수 있다. 머신러닝은 데이터와 통찰력을 사전에 제공하여 의사 결정자가 더 나은 통찰력과 시기 적절한 정보를 얻을 수 있도록 도와준다. 바람직한 결과는 특별히 찾거나 요청하지 않고 데이터에서 숨겨진 사실을 발견하는 동시에 문제 도는 비즈니스 통찰력에 대한 솔루션을 찾는 것이다.

Ref : https://www.netapp.com/ko/data-fabric/what-is-data-fabric/
Ref : https://www.etnews.com/20221115000103
Ref : https://www.tibco.com/ko/reference-center/what-is-data-fabric

profile
Feelings should not be attitude

0개의 댓글