Data Ecosystem

타키탸키·2020년 12월 12일

DA 알아보기

목록 보기

8/10

데이터는 하나의 생태계를 이루고 있다. 데이터 생태계(Data Ecosystem)는 수집, 가공, 분석 각각의 과정에서 데이터를 담는 인프라와 이를 처리하는 수집 및 분석 도구(어플리케이션)을 말한다. 데이터 생태계는 기업에 소비자를 파악할 수 있는 정보와 더 나은 운영 및 전략에 대한 방향을 제공해준다.

데이터 분석가의 업무 중 하나는 데이터 생태계을 파악하는 것이다. 특히, 회사에 처음 입사했을 때, 그 회사의 데이터 생태계를 이해하는 일은 업무에 있어 매우 중요하다. 예컨대, 이 회사는 어떤 시각화 프로그램을 사용하는지, 수집되는 데이터의 형태는 무엇인지, 어떤 테이블을 가지고 있는지, 어떤 파이프라인을 사용하여 데이터를 수집하는지 등을 업무 전에 미리 파악하는 것이다.

앞서 언급했듯, 데이터 생태계는 데이터를 다루는 여러 인프라와 프로그램을 말한다. 오늘은 이들에 대해 알아보고자 한다.

🏗 Data Pipeline

데이터 파이프라인은 데이터를 한 시스템으로부터 다른 시스템으로 옮기는 역할을 수행하는 과정을 말하며, 데이터를 변환하는 과정도 이에 포함된다. 데이터 파이프라인 구축의 목적은 효율성에 있다. 수집 단계의 데이터는 여러 곳에 산개해 있고 그 형태도 매우 다양하다. 하나의 서버에 모아두고 통일성을 확보하기 위해서는 데이터를 가공하는 과정이 필요하다.

AWS Data Pipeline은 관리형 ETL 서비스이다. ETL이란, 추출-변환-로드의 약어로 데이터 파이프라인의 전과정을 축약한 표현이다. AWS Data Pipeline은 소프트웨어를 서버에 직접 설치해 쓰는 방식인 온프레미스의 리소스 뿐만 아니라 다양한 AWS 서비스 전반에 걸친 데이터의 이동과 변환이 가능하다. 또한, SQL 쿼리와 비즈니스 로직이 담긴 데이터로 구성된 파이프라인을 만들 수 있는 종속 프로세스 기능도 제공한다.

데이터 파이프라인의 핵심은 실시간으로 업데이트되는 데이터 피드들을 처리할 수 있어야 한다는 것이다. AWS Data Pipeline의 경우 자동 빌드를 시작하고 이를 Amazon의 컴퓨트 클라우드인 EC2에 배포하는 등 소프트웨어를 전달하는 단계를 자동화함으로써 실시간 업데이트가 가능하다. 코드 변경이 있을 때마다 사용자가 정의한 Release Process Model에 따라 코드를 빌드하고 테스트하며 배포하는 서비스를 제공하기도 한다.

🏠 Data Warehouse

데이터 웨어하우스는 방대한 양의 정보를 저장할 수 있는 서버 상의 창고를 말하며 쿼리로 실행될 수 있는 구조를 가지고 있다. 데이터 웨어하우스를 통해 수집된 빅데이터의 저장과 관리가 가능하다. 따라서, 빅데이터와 데이터 웨어하우스는 뗄 수 없는 밀접한 관계를 가지고 있다.

데이터 웨어하우스의 종류는 다양하다. 앞서 설명한 Amazon사의 AWS(Amazon Web Service), Google사의 Big Query, 그리고 최근 출시된 Snowflake가 있다. AWS와 Big Query가 가장 활발히 이용되고 있는데 두 서비스의 큰 차이점은 데이터 소스를 관리하는 방법에 있다. AWS의 장점은 테이블 스키마 제작 시, 별도의 경로를 지정하지 않아도 서버 안에서 로그를 가져올 수 있다는 점이다. 반면, Big Query의 장점은 가상의 테이블 제작이 가능하고 성능이 AWS보다는 조금 더 좋으며, 이곳저곳 흩어져 있는 데이터 소스를 복잡하게 가공할 때 유용하게 사용할 수 있다는 점이다. 사용자가 원하는 환경에 따라 두 서비스를 적절히 사용해 보는 것이 좋을 것이다.

👯‍♀️ Data Join Platform

데이터 세트에는 여러 테이블이 존재한다. 예컨대, 전자상거래의 데이터 세트 속에는 유저 정보를 담은 User 테이블, 주문 정보를 담은 Order 테이블, 제품 정보를 담은 Product 테이블 등이 있다. 이들 테이블에 담긴 데이터를 하나의 쿼리 안에서 추출하기 위해서는 JOIN이라는 기능이 필요하다.

데이터가 여러곳에 흩어져 있는 만큼 데이터 테이블을 하나로 모아주는 JOIN Platform이 존재한다. 대표적인 데이터 조인 플랫폼은 Segment사의 Connection이 있다. Segment는 2만 개 이상의 비즈니스 데이터를 JOIN해주며, 수집과 가공, 그리고 처리 서비스도 제공한다.

SKT의 빅데이터 서비스 플랫폼 Geovision 또한 JOIN 기능을 제공한다. SKT와 분야별 전문 파트너 기업이 보유한 데이터 베이스를 합쳐 다양한 데이터 JOIN을 가능케 한다. Geovision은 SK planet의 지도와 poi정보, SKT 사용자의 행동패턴 및 라이프스타일 DB와 유동인구 DB, 통계청의 인구 센서스와 경제/사회 통계 등 SK의 여러 계열사와 관련된 공공기관 및 파트너 기업의 정보를 하나의 데이터베이스로 통합하여 전문성 있는 양질의 데이터를 제공한다.

📊 데이터 시각화

데이터 분석의 종착지인 데이터 시각화는 ppt, 구글 슬라이드, 대시보드와 함께 이루어진다. 분석된 결과를 한 눈에 볼 수 있는 형태로 구현하는 것이 데이터 시각화이다. 시각화를 잘해야 분석 결과에 대한 이해관계자와 고객의 이해를 도울 수 있다.

대시보드는 시각적으로 분석 결과와 KPI를 보여주는 정보 관리 도구이다. 기업에 니즈에 따라 자유자재로 항목들을 구성할 수 있다. 자주 사용되는 대시보드에는 Tablue, Looker, 그리고 Datastudio가 있다.

Tablue는 누구나 데이터를 보고 쉽게 이해할 수 있도록 돕는다. Tablue가 제시하는 특장점은 손쉬운 사용과 독보적 커뮤니티, 통합 플랫폼이다. Tablue는 직관적인 제품으로 소프트웨어 사용법을 배우지 않아도 사용할 수 있고 모범 사례를 통해 데이터를 무제한 탐색할 수 있는 기회를 제공한다. 또한, 백만 이상의 사용자가 있는 커뮤니티를 지원하며 폭넓고 심층적인 분석을 할 수 있도록 클라우드나 온프레미스에 배포할 수 있고 통합된 AI와 ML 기능, 데이터 관리 및 시각적 스토리텔링 등도 지원하는 통합 플랫폼이다.

Looker는 구글 클라우드와 함께 데이터 분석 플랫폼을 제공한다. 현대적인 BI와 분석을 지향하는 실시간 대시보드로 Redshift, Snowflake, Big Query의 데이터를 다룰 수 있고 ASW로부터 가져온 데이터도 사용할 수 있으며 고객의 개인 어플리케이션의 데이터도 시각화할 수 있다.

Data Studio는 데이터를 통해 공유와 읽기가 쉬운 대시보드와 맞춤설정을 지원하는 무료 도구이다. 드로그 앤 드롭 방식을 채택한 보고서 편집기를 통해 차트, 선, 그래프 등 다양한 기능을 활용할 수 있고 뷰어 필터와 기간 컨트롤로 누구나 데이터를 볼 수 있는 유연한 템플릿을 지원해서 보고서에 대한 상호작용이 가능하다. 하이퍼링크된 콘텐츠도 지원하며 텍스트와 이미지로 설명을 달 수도 있고 스타일과 색상 테마를 적용할 수 있다. Data Studio는 프로그래밍 없이도 다양한 소스의 데이터를 손쉽게 보고할 수 있고 실시간 공유를 통해 공동작업에도 유용하다.

이처럼 데이터를 위한 다양한 인프라와 프로그램이 있다. 기업에 따라 사용하는 프로그램이 다르므로 다양한 프로그램 경험을 갖는 것이 중요할 것이다. 각각의 프로그램마다 고유의 특장점을 지니고 있기에 목적과 쓰임에 맞게 사용하는 것이 좋겠다. 데이터의 생태계를 잘 파악하여 훌륭한 데이터 분석가로 거듭나 보자.

타키탸키

There's Only One Thing To Do: Learn All We Can

이전 포스트

How To Manage DA Request

다음 포스트