1. Day 5-1

data_hamster·2023년 5월 28일
0
post-custom-banner

학습주제
다양한 시각화 툴 소개

학습내용

BI 툴
KPI(팀의 중요 지표), 지표, 데이터 기반 분석, 시각화
그래프 외에 테이블로 요약해주는 것도 시각화라 할 수 있음

데이터 기반 결정
데이터 참고 결정

뒷단에 데이터 소스가 있어야함
관계형 데이터베이스, 데이터 웨어하우스

데이터 퀄리티가 중요해지기 때문에 ETL 데이터를 바로 쓰지 않고 ELT로 분석가들이 서머리 테이블을 만들어줌

더 성숙하면
시티즌 데이터 애널리스트, 사이언티스트

의사결정권자들이 데이터 과학적 의사결정 가능
데이터 분석을 위해

EDA: 데이터를 사용하기 전에 이게 어떤 특성을 갖는 데이터인지 탐험해봄.

  • 컬럼이 몇개고, 관계는 어떻게 되고 등
    파이썬 주피터 노트북으로 함.
  • 기본은 엑셀


기술적으로 들어가면 파이썬, R. EDA, 프로그래밍적인 접근
엑셀, R은 기능상의 제약이 있음
제대로 된 대시보드로 가면 조금씩 다른 특성 있음
Looker, 태블로, 파워 BI. 제대로 된 지표, 대시보드 제공

수퍼셋, 리대쉬 - 오픈소스다 보니 기능상 제약
모드 애널리틱스 - 중간자 적인 역할

구글 스튜디오, aws quicksight 자사 툴 -> 기능 굉장히 떨어짐

루커, 태블로, 모드 애널리틱스, 리대쉬 알아보고
수퍼셋 데모

Looker


한국에선 상대적으로 안쓰이지만 실리콘밸리에서 많이 쓰이고 있음
처음 배우기 힘들지만, 한번 배우면 기능을 붙이기가 굉장히 쉽게 되어 있음
누가 만들어놓은 대시보드를 수정해다 나만의 대시보드로 만들기 쉬움.
셀프 서비스 형태로 사용
태블로와 비교하면
셀프 서비스 기능이 더 좋음.
내 입맛게 맞게 고치기 쉬움
셋업 하기 어려움. 백엔드에 부하 좀 줌
루커를 모르는 사람이 가져다가 고치는것도 그렇게 어렵지 않음.
한 사람이 탬플릿만 잘 만들어놓으면 현업 부서 사람들도 자기들만의 대시보드를 만들기 쉬움.
누구나 대시보드를 만들 수 있다보면 무더기로 만들어짐. 대시보드 디스커버리 이슈가 발생.

태블로는
한번 만들어놓으면 고치려면 상당한 노력
사용하려는 사람이 나중에 필터하나 추가하려면 직접하기 불가능함.
조금씩 고치는게 상당한 노력이 들어감.

Tableau


루커가 나온 후 위치가 위협받는 상황.
오랫동안 사업해서 제품군이 다양함
무료 사용 옵션 있음
웹으로 엑세스 하는 경우, 모든 대시보드를 퍼블릭으로 노출 조건으로 써볼 수 있음.
태블로 - 극히 일부의 전문 인력만 대시보드를 만들 수 있음
시티즌 데이터 애널리스트 -> 배우기 어려움
데이터 민주화, 탈중앙화에는 부적합

ReDash


Saas 형태로 제공
리대쉬는 Sql 에디터가 있어서 테크니컬한 사람들이 데이터 웨어하우스에 결과를 날려보고 맞는 결과를 보고 대시보드를 만듦
수퍼셋은 sql을 몰라도 쓸 수 있음
많은 경우 sql 에디터로부터 시작

슈퍼셋 - 사용자 기능이 강력 Role 기반 권한지정이 가능. 대시보드에 대한 엑세스 권한을 role 기반으로

슈퍼셋을 더 많은 회사들이 사용

오늘 이 챕터에서는 슈퍼셋으로 실습

Spark으로 유명한 데이터브릭스가 인수

Mode Analytics


sql, R, Python
KPI 지표보단, EDA 툴에 가까움

어떤 툴?


돈이 있으면 루커, 태블로
러닝 커브 존재
태블로가 좀 더 싸고, 무료버전도 있어서 공부 가능

데이터 도메인이 바뀌는 트렌드를 보자면
데이터 탈중앙화, 민주화 관점에선
루커가 더 좋음
셀프 서비스형태의 대시보드를 만들기 편함
대시보드의 수가 많아져 대시보드 디스커버리 이슈 발생
수정 하다가 실수 발생하는 이슈들도 있을 것임
결국 데이터 품질과 데이터 거버넌스 중요

profile
반갑습니다 햄스터 좋아합니다
post-custom-banner

0개의 댓글