데이터 시각화 툴

yjbenkang·2024년 11월 10일

시각화 툴이란 ?

  • 대시보드 혹은 BI(BUSINESS INTELLIGENCE)툴이라고 부르기도 함
  • KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터 기반으로 계산/분석/표시해주는 툴
  • 그래프 혹은 테이블
  • 데이터 웨어하우스 혹은 관계형 디비와 연결되어 그 데이터를 기반으로 시각화, 데이터 소스가 존재해야한다.
  • 데이터 품질이 중요하므로 ETL로 넘어온 raw data를 바로 쓰지 않고 데이터 분석가가 정제한 ELT를 통한 Summary Table을 사용하는 것이 일반적
  • 품질과 이용가능한 시간대가 보장되어야함
  • 결국은 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 함
    • 데이터 기반 결정 (Data-Driven Decision)
    • 데이터 참고 결정 (Data-Informed Decision)
  • 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌

어떤 툴들이 존재하나 ?

  • Excel, Google Spreadsheet : 사실상 가장 많이 쓰이는 시각화 툴
  • Python : 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합,프로그래밍적인 접근
  • Looker (구글)
  • Tableau (세일즈포스)
  • Power BI (마이크로소프트)
  • Apache Superset (오픈소스)
  • Mode Analytics, ReDash (오픈소스)
  • Google Studio(GCP) : 기능 아쉽
  • AWS Quicksight(AWS) : 기능 아쉽
    오픈소스가 기능적으로 좀 더 제약이 있음

Looker

  • 2012년 미국 미국 캘리포니아 산타크루즈에서 시작
  • 구글이 2019년 6월에 $2.6B에 인수
    • 지금은 구글 클라우드의 일부
  • 특징
    • LookML이 자체언어로 데이터 모델을 만드는 것으로 시작
    • 내부 고객뿐만 아니라 외부 고객을 위한 대시보드 작성 가능
    • 고가의 라이센스 정책을 갖고 있으나 굉장히 다양한 기능 제공
    • 한 사람이 템플릿 잘만들어놓은 후 다른 사람이 수정하기가 용이함

Tableau

  • 2002년 미국 캘리포니아 마운틴뷰에서 시작하여 2013년 상장
  • 세일즈포스가 2019년 6월에 $15.7B에 인수함
  • 특징
    • 다양한 제품군 보유, 일부는 사용이 무료
    • 제대로 배우려면 시간이 꽤 필요하지만 강력한 대시보드 작성 가능
    • Looker가 뜨기 전까지 오랫동안 마켓 리더로 군림
    • 극히 일부의 전문 인력만 tableau로 대시보드 생성 가능. 데이터 민주화를 생각했을 때 어려움

ReDash

  • 오픈소스로 시작
    • 이를 바탕으로 서비스를 제공하는 같은 이름의 회사 존재
  • Superset과 상당히 흡사
    • 더 강력한 쿼리 에디터 제공하지만 사용자 권한 관련 기능은 부족
  • 2020년에 Databricks가 인수함
  • SQL 에디터가 있음

Mode Analytics

  • 2013년에 샌프란시스코에서 창업됨
  • SQL, R, Python 등을 기반으로 데이터 분석 가능
    • 조금 더 테크니컬한 인력을 대상으로한 애널리틱스 기능 제공
    • KPI 대시보드라기보다는 EDA(Exploratory Data Analysis) 툴에 가까움

어떤 시각화 툴을 선택할 것인가?

  • Looker 혹은 Tableau가 가장 많이 사용되는 추세
    • 두 툴 모두 처음 배우는데 시간이 필요함
    • Tableau의 가격이 더 싸고 투명하며 무료 버전도 존재해서 공부가 가능
  • 중요한 포인트는 셀프서비스 대시보드를 만드는 것
    • 안 그러면 매번 사람의 노동이 필요해짐
      • 60-70%의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공
    • 또한 사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있음
      • 데이터 민주화 (Data Democratization), 데이터 탈중앙화 (Data Decentralization)
      • 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 필요한 이유가 됨 !
    • 이런 측면에서는 Looker가 더 좋은 선택이지만 가격이 상당히 비쌈
profile
keep growing

0개의 댓글