데이터의 가치는 그것이 적재적소에 활용될 때 극대화됩니다. 그러나 현대 비즈니스 환경에서는 조직 내부뿐만 아니라 외부 파트너, 고객, 협력업체와의 데이터 공유가 점점 중요해지고 있습니다. 데이터브릭스(Databricks)는 이러한 필요성을 인식하고 안전하고 효율적인 데이터 공유 솔루션을 제공합니다. 이 글에서는 데이터브릭스에서 데이터를 외부와 공유하는 다양한 방법을 살펴보겠습니다.

데이터브릭스와 Linux 재단은 데이터, 분석 및 AI 전반의 데이터 공유를 위해 최초의 오픈 소스 접근 방식을 제공하기 위해 Delta Sharing을 개발했습니다. 이 혁신적인 프로토콜을 통해 조직은 데이터 플랫폼, 클라우드 제공업체, 지역에 관계없이 안전하게 데이터를 공유할 수 있습니다.
데이터브릭스에서 외부와 데이터를 공유하는 방법은 크게 세 가지로 나눌 수 있습니다:
이 방식은 Unity Catalog가 활성화된 데이터브릭스 작업 영역 간에 데이터를 공유할 때 사용합니다.
주요 특징:
적합한 사용 사례:
데이터브릭스 사용자가 아닌 외부 조직과 데이터를 공유할 때 사용하는 방식입니다.
주요 특징:
적합한 사용 사례:
자체 델타 공유 서버를 구축하여 데이터브릭스 외부에서 완전히 독립적으로 운영하는 방식입니다.
주요 특징:
적합한 사용 사례:
데이터 수신자로부터 공유 식별자 요청
공유(Share) 생성
CopyCREATE SHARE my_shared_data
COMMENT 'Data shared with partner organization';
공유에 데이터 추가
Copy-- 테이블 추가
ALTER SHARE my_shared_data ADD TABLE catalog_name.schema_name.table_name;
-- 뷰 추가
ALTER SHARE my_shared_data ADD VIEW catalog_name.schema_name.view_name;
-- 노트북 추가
ALTER SHARE my_shared_data ADD NOTEBOOK '/path/to/notebook';
-- 볼륨 추가
ALTER SHARE my_shared_data ADD VOLUME catalog_name.schema_name.volume_name;
수신자 생성
CopyCREATE RECIPIENT partner_recipient
USING SHARE IDENTIFIER 'provided-uuid-from-recipient'
COMMENT 'Partner organization';
수신자에게 공유 접근 권한 부여
CopyGRANT SELECT ON SHARE my_shared_data TO RECIPIENT partner_recipient;
메타스토어에서 델타 공유 활성화
공유 생성 및 데이터 추가
수신자 생성 (토큰 기반)
CopyCREATE RECIPIENT external_recipient
COMMENT 'External organization';
토큰 발급 및 관리
CopyCREATE RECIPIENT TOKEN FOR external_recipient
EXPIRES_IN 90 DAYS;
수신자 액세스 권한 부여
CopyGRANT SELECT ON SHARE my_shared_data TO RECIPIENT external_recipient;
활성화 링크 전송
데이터 클린룸은 개인정보를 안전하게 보호하면서 여러 당사자가 민감한 데이터에 대해 협업할 수 있는 환경을 제공합니다.
주요 특징:
동적 뷰를 활용하여 수신자가 볼 수 있는 데이터를 행과 열 수준에서 제한할 수 있습니다.
Copy-- 동적 뷰 생성 예시
CREATE VIEW catalog.schema.filtered_customer_data AS
SELECT customer_id, first_name, last_name, city
FROM catalog.schema.customer_data
WHERE region = 'EMEA';
-- 공유에 동적 뷰 추가
ALTER SHARE my_shared_data ADD VIEW catalog.schema.filtered_customer_data;
Databricks Marketplace를 통해 데이터 제품(데이터셋, AI 모델, 대시보드, 노트북 등)을 쉽게 발견하고 액세스할 수 있습니다.
기록 공유를 통한 성능 향상
CopyALTER SHARE my_shared_data ALTER TABLE catalog.schema.table_name WITH HISTORY;
송신 비용 관리
한 금융 기관은 외부 분석 회사와 협력하여 트랜잭션 데이터를 분석하고자 했습니다. 개인정보 보호가 중요했기 때문에, 데이터브릭스 클린룸을 설정하고 델타 공유를 통해 익명화된 데이터를 공유했습니다. 분석 회사는 Power BI를 사용하여 데이터에 접근하고 분석 결과를 제공했습니다.
여러 국가에 지사를 둔 다국적 기업은 각 지역 데이터를 중앙에 복제하지 않고도 통합 분석을 수행하고자 했습니다. 델타 공유를 사용하여 각 지역의 데이터브릭스 인스턴스 간에 데이터 메시를 구축했습니다. 이를 통해 데이터 복제 비용을 줄이고, 항상 최신 데이터에 접근할 수 있게 되었습니다.
한 데이터 분석 회사는 산업별 벤치마크 데이터를 제공하는 사업을 운영합니다. 델타 공유와 데이터브릭스 마켓플레이스를 활용하여 이러한 데이터 제품을 쉽게 패키징하고 고객에게 제공했습니다. 고객은 원하는 분석 도구를 사용하여 데이터에 접근할 수 있었습니다.
델타 공유 사용 시 알아야 할 몇 가지 제한사항이 있습니다:
데이터브릭스의 델타 공유는 안전하고 효율적인 데이터 공유를 위한 혁신적인 솔루션을 제공합니다. 조직 내부뿐만 아니라 외부 파트너, 고객과의 데이터 공유가 점점 중요해지는 현대 비즈니스 환경에서, 델타 공유는 다음과 같은 핵심 이점을 제공합니다:
데이터브릭스의 데이터 공유 기능을 활용하면 조직은 데이터의 가치를 극대화하고 협업을 촉진하며 데이터 기반 혁신을 가속화할 수 있습니다. 복잡한 데이터 복제나 ETL 프로세스 없이도 안전하게 데이터를 공유하는 새로운 방식을 경험해 보세요.