[5/10] TIL - 시각화 툴 (Superset)

Sangwon Jwa·2024년 5월 10일

데브코스 TIL

목록 보기
30/54
post-thumbnail

📖 학습 주제


  1. 시각화 툴
  2. Superset

✏️ 주요 메모 사항 소개


시각화 툴

시각화 툴이란 대시보드 혹은 BI(Business Intelligence)툴이라고도 하며, KPI(Key Performance Indicator), 지표, 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴을 말한다. 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 하고 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해준다.

시각화 툴에는 다음과 같은 다양한 서비스들이 있다.

  1. Excel, Google Spreadsheet
  2. Python : 데이터 특징 분석 (EDA(Exploratory Data Analysis)에 더 적합)
  3. Looker (구글)
  4. Tableau (세일즈포스)
  5. Power BI (마이크로소프트)
  6. Apache Superset (오픈소스)
  7. Mode Analytics, ReDash
  8. Google Studio
  9. AWS Quicksight

현재는 Looker 혹은 Tableau가 가장 많이 사용되는 추세이다. 두 툴 모두 처음 배우는데 시간이 필요하다는 공통점을 갖는다. 둘 중에서는 Tableau의 가격이 더 싸고 투명하며 무료 버전도 존재하기 때문에 공부가 가능하다.

중요한 점은 셀프서비스 대시보드를 만드는 것이다. 안 그러면 매번 사람의 노동이 필요해지기 때문이다. 60-70%의 질문을 셀프서비스 대시보드로 처리할 수 있다면 대성공이라 할 수 있다. 또한 사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있다.

  • 데이터 민주화, 데이터 탈중앙화
  • 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 더욱 중요하고 필요해졌다.

이런 측면에서 Looker가 더 좋은 선택이긴 하지만 가격이 상당히 비싸기 때문에 여러 시각화 툴을 비교해보고 자신에 맞는 서비스를 이용하자.


Superset

Airbnb에서 시작된 오픈소스 시각화 툴로 다양한 형태의 Visualization과 손쉬운 인터페이스를 지원한다. 또한 대시보드 공유를 지원하고 엔터프라이즈 수준의 보안과 권한 제어 기능도 제공하고 있다. 추가적으로 다음과 같은 특징을 갖는다.

  • SQLAlchemy와 연동 가능 (다양한 데이터 베이스 지원)
  • Druid.io와 연동하여 실시간 데이터의 시각화도 가능
  • API와 플러그인 아키텍처 제공으로 인한 확장성이 좋음

Superset 구조와 용어

Superset은 Flask와 React JS로 구성되어 있다. 기본으로 sqlite를 메타데이터 데이터베이스로 사용하고, Redis를 캐싱 레이어로 사용한다. 백엔드 DB 접근에는 SQLAlchemy가 사용된다.

Superset에서

  • Database == 관계형 데이터베이스 (ex. Redshift)
  • Dataset == 테이블
  • Dashboard는 하나 이상의 Chart로 구성되어있다고 표현

코호트(Cohort) 분석

코호트란 특정 속성을 바탕으로 나뉘어진 사용자 그룹을 말한다. 보통 속성은 사용자의 서비스 등록월을 지정한다. 코호트 분석이란 이 코호트를 기반으로 사용자의 이탈률, 잔존률, 총 소비금액등을 분석한 것을 말한다. 잔존률(Retention)은 보통 월기반으로 시각화해서 보는것이 일반적이다.


실습 - Superset으로 대시보드 만들기

0개의 댓글