시각화 툴이란 ?
- 대시보드 혹은 BI(BUSINESS INTELLIGENCE)툴이라고 부르기도 함
- KPI (Key Performance Indicator), 지표, 중요한 데이터 포인트들을 데이터 기반으로 계산/분석/표시해주는 툴
- 그래프 혹은 테이블
- 데이터 웨어하우스 혹은 관계형 디비와 연결되어 그 데이터를 기반으로 시각화, 데이터 소스가 존재해야한다.
- 데이터 품질이 중요하므로 ETL로 넘어온 raw data를 바로 쓰지 않고 데이터 분석가가 정제한 ELT를 통한 Summary Table을 사용하는 것이 일반적
- 품질과 이용가능한 시간대가 보장되어야함
- 결국은 결정권자들로 하여금 흔히 이야기하는 데이터 기반 의사결정을 가능하게 함
- 데이터 기반 결정 (Data-Driven Decision)
- 데이터 참고 결정 (Data-Informed Decision)
- 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌
어떤 툴들이 존재하나 ?
- Excel, Google Spreadsheet : 사실상 가장 많이 쓰이는 시각화 툴
- Python : 데이터 특성 분석(EDA: Exploratory Data Analysis)에 더 적합,프로그래밍적인 접근
- Looker (구글)
- Tableau (세일즈포스)
- Power BI (마이크로소프트)
- Apache Superset (오픈소스)
- Mode Analytics, ReDash (오픈소스)
- Google Studio(GCP) : 기능 아쉽
- AWS Quicksight(AWS) : 기능 아쉽
오픈소스가 기능적으로 좀 더 제약이 있음
Looker
- 2012년 미국 미국 캘리포니아 산타크루즈에서 시작
- 구글이 2019년 6월에 $2.6B에 인수
- 특징
- LookML이 자체언어로 데이터 모델을 만드는 것으로 시작
- 내부 고객뿐만 아니라 외부 고객을 위한 대시보드 작성 가능
- 고가의 라이센스 정책을 갖고 있으나 굉장히 다양한 기능 제공
- 한 사람이 템플릿 잘만들어놓은 후 다른 사람이 수정하기가 용이함
Tableau
- 2002년 미국 캘리포니아 마운틴뷰에서 시작하여 2013년 상장
- 세일즈포스가 2019년 6월에 $15.7B에 인수함
- 특징
- 다양한 제품군 보유, 일부는 사용이 무료
- 제대로 배우려면 시간이 꽤 필요하지만 강력한 대시보드 작성 가능
- Looker가 뜨기 전까지 오랫동안 마켓 리더로 군림
- 극히 일부의 전문 인력만 tableau로 대시보드 생성 가능. 데이터 민주화를 생각했을 때 어려움
ReDash
- 오픈소스로 시작
- 이를 바탕으로 서비스를 제공하는 같은 이름의 회사 존재
- Superset과 상당히 흡사
- 더 강력한 쿼리 에디터 제공하지만 사용자 권한 관련 기능은 부족
- 2020년에 Databricks가 인수함
- SQL 에디터가 있음
Mode Analytics
- 2013년에 샌프란시스코에서 창업됨
- SQL, R, Python 등을 기반으로 데이터 분석 가능
- 조금 더 테크니컬한 인력을 대상으로한 애널리틱스 기능 제공
- KPI 대시보드라기보다는 EDA(Exploratory Data Analysis) 툴에 가까움
어떤 시각화 툴을 선택할 것인가?
- Looker 혹은 Tableau가 가장 많이 사용되는 추세
- 두 툴 모두 처음 배우는데 시간이 필요함
- Tableau의 가격이 더 싸고 투명하며 무료 버전도 존재해서 공부가 가능
- 중요한 포인트는 셀프서비스 대시보드를 만드는 것
- 안 그러면 매번 사람의 노동이 필요해짐
- 60-70%의 질문을 셀프서비스 대시보드로 할 수 있다면 대성공
- 또한 사용하기가 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있음
- 데이터 민주화 (Data Democratization), 데이터 탈중앙화 (Data Decentralization)
- 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 필요한 이유가 됨 !
- 이런 측면에서는 Looker가 더 좋은 선택이지만 가격이 상당히 비쌈