실습으로 배우는 태블로 3주차

Suhyeon Lee·2024년 12월 11일

학습 목표



데이터 시각화

  • 데이터 시각화(Data Visualization)란?
    • 데이터를 그래프 형식으로 나타내어 직관적으로 이해하기 쉽게 만드는 것
      • 복잡한 데이터를 그래프로 시각화
    • 그래프를 활용하여 데이터의 추세, 분포, 상관 관계 등을 시각적으로 표현할 수 있음

Datasaurus

☞ 알베르토 카이로의 데이터사우르스 차트

  • 알베르토 카이로(Alberto Cairo)의 데이터 세트인 데이터사우르스(Datasaurus)
    • 데이터 시각화의 중요성을 보여주는 유명한 사례
      • 데이터 시각화가 단순히 데이터를 요약해 보여주는 것을 넘어 데이터를 이해하고 활용할 수 있는 인사이트를 제공하는 데도 필수적이라는 사실을 확인할 수 있음
    • 데이터 세트가 소수점 둘째 자리까지는 같아도 소수점 셋째 자리 이하의 숫자를 바꿔가면 시각화했을 때 다양한 모양이 나타남
      → 공룡 형태로 분포된 차트와 아래 12개의 차트는 모두 평균과 분산, 표준편차 등 주요한 지표가 소수점 두 자리까지 같은 데이터인데도, 소수점 세 자리 이하의 수치를 바꿔가며 시각화했을 때 전혀 다른 패턴이 등장
      • 정상적인 통계처럼 보이지만 시각화하면 공룡 모양의 형태를 보임
      • 이는 숫자로 요약된 통계만으로는 해당 숫자들이 가진 정확한 의미를 도출하는 것에는 한계가 있고, 시각화했을 때 비로소 유의미한 차이를 찾을 수 있다는 메시지를 전달

🡆 데이터는 그래프로 그려 보는 과정이 꼭 필요함: 데이터 시각화가 단순히 데이터를 요약해서 보여주는 것 이상으로 데이터를 이해하고 활용할 수 있는 인사이트를 제공하는 데 중요한 역할을 한다는 걸 알 수 있음!

🡆 모양에 따라 다르게 해석될 수 있으므로 주의해야 함!

→ 데이터 시각화에 대해 더 알고 싶다면 여기

효과적인 차트를 고르는 법

☞ Chart Suggestions A Thought Scatter (by. Andrew Abela)

  • 무엇을 보여줄 것인가? → 4가지 종류

    • 비교(comparison)
      • 막대: 항목 간 비교
      • 선: 시간에 따른 변화(시계열 데이터)
    • 관계(relationship)
      • scatter plot: 두 가지 변수
      • bobble plot: 세 가지 변수
    • 분포(distribution)
      • 데이터 분포 확인: 히스토그램 등
    • 구성(composition)
      • 시간에 따라 변함(changing over time): stacked plot 등
      • 시간에 따라 변하지 않음(static): pie chart, waterfall chart 등
  • 태블로 퍼블릭에서도 Chart Suggestions Guide 제공

태블로 차트 소개

  • 태블로 퍼블릭 차트 소개 (by.Andy Kriebel)

  • 표현 방식

    • Tableau 오른쪽 화면의 표현 방식 기능
    • 데이터에 적합한 24개의 대표 그래프를 활용할 수 있음
  • 표현 방식의 종류

    • 텍스트 테이블
    • 히트맵
    • 맵 차트
    • 파이 차트
    • 막대 차트
    • 트리맵
    • 라인 차트
    • 영역 차트
    • 분산형 차트
    • 박스 플랏

🡆 태블로는 중장기적으로 확인해야 하는 대시보드로 활용되는 좀 더 간단한 그래프들을 그린다고 보면 됨

데이터 시각화의 장점

  • 데이터를 빠르게 이해하고 의사결정 할 수 있음
  • 실무에서 협업할 때, 효과적으로 커뮤니케이션 할 수 있음
  • 직관적인 데이터의 이해를 통해 인사이트를 도출할 수 있음
    • 리포트를 쓰거나 대시보드를 만들 때 태블로를 활용해 데이터 시각화 업무를 많이 함

실습 데이터 소개

  • Boston Airbnb Open Data
    • listings.csv
      • Id: 고유 아이디
      • Host Id: 호스트 아이디
      • Host Name: 호스트 이름
      • Host Is Superhost: 슈퍼 호스트인지 여부
      • Host Since: 호스트 시작 날짜
      • Neighbourhood: 보스턴 동네 구역
      • Price: 숙소 가격
      • Property Type: 숙박 시설 유형
      • Room Type: 방 유형
      • Review Scores Rating: 숙소 리뷰 평점


기본 그래프

선 그래프(Line Plot)

이런 질문에 답하고 싶을 때 주로 사용:

  • 유료 구독자 수 변화 추이가 궁금해요!
  • 2022년 대비 2023년의 상품 주문 판매량은 얼마나 증가했을까요?
  • 매일 얼마나 많은 유저들이 우리 서비스를 이용할까요?
    • 가장 많이 보는 시각화 내용
    • 활성 사용자 수 확인: DAU, MAU와 같은 지표

특징

  • 간단하고 사용하기 쉬움
  • 시계열 데이터(시간에 따른 추이)를 시각화할 경우, 변화량과 트렌드를 한눈에 보기에 용이
  • 연속적인 데이터에 사용하기 적합함
    • 연속형 데이터: 온도(25도, 30도), 시간(시, 분, 초) 등

[실습] 에어비앤비 호스트 수 추이

연도별(2008-2016년) 에어비앤비 호스트 수 증가 추이를 선 그래프로 시각화해봅시다!

  • 요구 사항

    • 열: Host Since(년)
    • 행: 카운트(고유)(Host Id)
    • 마크 레이블: 표시
    • 색상: 그래프의 색상을 자유롭게 변경해주세요.
    • 경로: 라인 패턴 유형을 2번째 선(--)으로 변경해주세요.
  • 실습 예시

  • 내가 실습한 내용

→ 그래프 찌그러져 있는 거 넓게 펴고 싶으면:

막대 그래프(Bar Plot)

이런 질문에 답하고 싶을 때 주로 사용:

  • 이번달 가장 많은 항공권이 예약된 해외 지역은 어디일까요?
  • 퍼널별 전환율을 확인하고 싶어요.
  • 카테고리별 상품 판매량을 비교하고 싶어요!

특징

  • 간단하고 사용하기 쉬움
  • 범주 간의 차이나 분포를 시각적으로 이해하기 쉬움
  • 범주형 데이터(성별, 혈액형, 이름 등)에 사용하기 적합함

→ 현황 파악을 할 때 보고서 앞단에 많이 사용

[실습] 동네별 숙소 평균 가격

어느 동네가 숙소 평균 가격이 높을까요? neighborhood_cleansed별 평균 가격을 막대 그래프로 시각화 해봅시다!

  • 요구 사항

    • 색상: 그래프의 색상과 테두리 색상을 자유롭게 변경해주세요.
    • 정렬: 필드 평균(Price) 내림차순 기준 정렬
    • 화면 맞춤: 높이 맞추기
  • 실습 예시

  • 내가 실습한 내용

맵 차트(Map Chart)

이런 질문에 답하고 싶을 때 주로 사용:

  • 밤 시간대(오후 11시-새벽 2시)에 택시 이용률이 가장 높은 서울 자치구는 어디일까요?
    • 모빌리티 산업에서는 이런 문제를 풀기도 함
  • 각 지역별 ATM 기기의 위치를 분석하여 어떤 지역이 기기 수가 많은지 부족한지 알고 싶어요.
  • 성수동의 맛집 위치와 분포가 궁금합니다!

특징

  • 지도를 활용해서 지리적 위치를 살펴볼 수 있음
  • 각 지역별 데이터의 분포 및 비중을 한눈에 확인할 때 주로 사용

기능

  • 뷰 툴바
    • 지도를 확대/축소해서 볼 수 있음
  • 백그라운드 레이어
    • 지도 배경에 대한 다양한 기능 제공
      • 투명도(%) 설정
      • 해안선, 건물 표시 등

[실습] zipcode별 숙소 리뷰 평균 평점 분포

보스턴 지역에서 어느 구역이 숙소 리뷰 평균 평점이 가장 높을까요? 평균 평점 분포를 맵 차트로 시각화 해봅시다!

  • 요구 사항

    • 세부정보: Zipcode
    • 색상: 평균(Review Scores), 색상은 자유롭게 변경해주세요.
    • 레이블
      • Neighbourhood Cleansed: 폰트 볼드 처리, 폰트 크기(10pt)
      • 평균(Review Scores)
    • 백그라운드 레이어: 투명도 100%
    • 도구 설명
      • 도구 설명 표시: 마우스 오버
  • 실습 예시

  • 힌트

  • 내가 실습한 내용

  • 포인트



파이 차트(Pie Chart)

이런 질문에 답하고 싶을 때 주로 사용:

  • 사용자 기기별(안드로이드, IOS, 태블릿) 앱 다운로드 비율이 궁금해요.
  • 배달앱의 식사 시간별(점심 시간, 저녁 시간) 어떤 음식 카테고리 주문량 비중이 클까요?
  • 멤버십 등급별(VVIP, VIP, 일반 고객) 매출 비중이 궁금해요!

특징

  • 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있음
  • 데이터의 구성 비율과 분포를 한눈에 파악할 수 있음
  • 다양한 변수를 다루기에는 적합하지 않을 수 있음
    • 변수가 적을 때 직관적으로 사용하기 용이

[실습] 룸 타입별 비중

어떤 룸 타입이 가장 많은 비중을 차지하고 있을까요? 파이차트로 시각화 해봅시다!

  • 요구 사항

    • 색상: Room Type 색상표에서 연한 번개를 선택해주세요.
    • 각도: 카운트(고유)(Id)의 퀵테이블 구성 비율
    • 측정값: 카운트(고유)(Id)
    • 레이블: Room Type, 측정값을 순서대로 표시해주세요.
      • Room Type: 폰트 볼드 처리, 폰트 크기(12pt), 사용자 지정 색상(#4B89DC)
      • 측정값: 폰트 볼드 처리, 폰트 크기(10pt)
    • 화면 맞춤: 전체 보기
  • 실습 예시

  • 힌트

  • 내가 실습한 내용

  • 포인트

트리맵 차트(## Treemap Chart)

이런 질문에 답하고 싶을 때 주로 사용:

  • 카테고리의 지역별 매출 비율이 어떻게 될까요?
  • 책의 종류(소설, 자기계발, 역사 등)별 지역별 서점 도서 매출이 궁금합니다.

특징

  • 데이터를 계층적으로 표현하는데 사용됩니다.
  • 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악할 수 있어요.

[실습] 가장 많이 리스트된 호스트 이름

가장 많이 리스트된 호스트는 누구일까요? 호스트의 숙소의 평균 가격과 숙소 가격 합계가 궁금해요. 숙소 가격 합계가 큰 순서대로 색상을 나타내주세요. 트리맵 차트로 시각화 해봅시다!

  • 요구 사항

    • 열: 합계(Host Listings Count)
    • 행: Host Name
    • 레이블: Host Name, 평균(Price)
    • 색상: 합계(Price), 색상 파란색-녹색 단일
  • 실습 예시

  • 힌트

  • 내가 실습한 내용



심화 그래프

도넛 차트(Donut Chart)

특징

  • 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우를 도넛 차트라고 함
  • 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있음
  • 태블로에서는 대시보드의 KPI 카드로 많이 활용

태블로 퍼블릭 (by.Ben Neville)

히트맵 차트(Heatmap Chart)

특징

  • 색상을 활용해서 데이터 값을 시각적으로 강조할 수 있음
  • 색상의 그라데이션을 통해 측정값들을 한눈에 비교 가능
  • 태블로에서 하이라이트 테이블이라고도 불림

영역 차트(Area Chart)

특징

  • 영역 차트는 선 아래 영역을 색으로 채워서 데이터의 영역 크기를 파악할 수 있음
  • 시간에 따른 데이터의 추이를 시각적으로 나타냅니다. 데이터의 변화 및 흐름을 쉽게 파악 가능

스택 플랏(Stacked Plot)

특징

  • 상대적인 비율을 직관적으로 시각화
  • 시간에 따라 데이터가 어떻게 변하는지 시각적으로 알 수 있음
  • 단순 누적 그래프는 기준선이 일정하지 않기 때문에 비교하기가 어려움
    • 100% 누적 그래프를 활용하면 기준을 비교하기 쉬움

[실습] 일반 호스트와 슈퍼 호스트의 응답 시간별 비중 비교

일반 호스트와 슈퍼 호스트의 응답 시간 비중은 어떻게 다를까요? Host Response Time별(1시간내 응답, 몇시간내 응답 등) 슈퍼 호스트와 일반 호스트 수를 단순 누적 그래프로 시각화 해봅시다!

  • 요구 사항

    • 색상: 슈퍼 호스트와 일반 호스트 수의 색상을 다르게 표현해주세요. 색상표에서 여름을 선택해주세요.
    • 레이블: 마크 레이블 표시
    • 축: 행 머리글 숨기기
    • 범례: 표시
    • 화면 맞춤: 너비 맞추기
  • 실습 예시

  • 힌트

    • 행: Host Is Superhost
  • 내가 실습한 내용

  • 강사님 내용




시각화 Level Up

이중 축(콤보 차트)

  • 하나의 차원을 두 개 이상의 측정값으로 동시에 파악하고 싶을 때 이중 축을 활용

특징

  • 이중 축 차트를 사용하면 두 가지 서로 다른 데이터 집합을 한번에 비교할 수 있음
  • 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼때 한눈에 알아보기 어려움

평균선/참조선

  • 분석 패널에서 평균선 라인/상수 라인/참조선을 추가해서 의사결정을 빠르게 할 수 있음




데이터 분석하기

박스 플랏(Box Plot)

  • 데이터의 분포와 이상치(outlier)를 시각적으로 파악할 때 사용하는 그래프

[실습] 숙박 시설 유형별 가격 분포

property type(숙박 시설 유형)은 주택(House), 게스트 하우스(Guesthouse), 빌라(Villa) 등이 있어요. property type별 가격 분포를 박스 플랏으로 시각화해봅시다!

  • 요구 사항
    • 색상: 자유롭게 변경해주세요.
    • 마크: '모양'으로 변경해주세요.
      • 내 화면에서는 '도형'임
    • 축 편집: y축의 주 눈금선을 고정으로 변경해주세요.
    • 화면 맞춤: 전체 보기
  • 실습 예시
  • 힌트
    • 열: Property Type
    • 행: 합계(Price)
  • 내가 실습한 내용
  • 포인트

파레토 차트(Pareto Chart)

파레토 법칙이란?
전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
(다수의 결과는 소수의 원인에 의해 생겨난다)

  • 예를 들어, 간단하게 데이터를 분석하고자 할 때 80%의 수익이 판매 상품 중 20%에서 발생한다고 의사 결정 가능
    • 매출의 80%가 고객의 20%에 의해 발생한다고 의사 결정을 효율적으로 할 수 있음

태블로 퍼블릭(by.Naveen)

상관 관계(Scatter Plot)

  • 지표 간 어떤 선형적인 관계가 있는지 알아보기 위해 상관 분석을 자주 활용

피어슨 상관 관계 설명

  • 상관 관계 r이 -1이나 1에 가까울수록 x와 y 사이의 관계가 더 강력합니다.
  • r이 0이거나 0에 가까우면 측정값 간의 관계가 약하거나 관계가 없는 것입니다.
  • 일반적인 규칙에 따라, r 값을 다음과 같은 방식으로 해석할 수 있습니다.
    • +.70 이상은 매우 강한 양의 관계를 나타냅니다.
    • +.40에서 +.69 사이는 강한 양의 관계를 나타냅니다.
    • +.20에서 +.39 사이는 중간 정도의 양의 관계를 나타냅니다.
    • .19에서 +.19 사이는 약하거나 상관없는 관계를 나타냅니다.
    • .20에서 -.39 사이는 중간 정도의 음의 관계를 나타냅니다.
    • .40에서 -.69 사이는 강한 음의 관계를 나타냅니다.
    • .70 이하는 매우 강한 음의 관계를 나타냅니다.

시계열 예측

  • 태블로에서 지수 평활법(exponential smoothing)을 활용해서 예측 모델링
    • 과거 데이터에 기반하여 미래를 예측하는 시계열 예측을 해요~

[실습] 일별 에어비앤비 매출 예측하기

calender.csv는 2016/9/6부터 2017/9/4까지 일별 전체 매출 실적 데이터입니다. 실제 값을 바탕으로 2017/9/5 - 2017/9/16 매출을 예측해봅시다!

  • 요구 사항
    • 표현 방식: 라인 그래프
    • 예측: 예측 표시
    • 색상: 색상표에서 천사의 돌을 선택해주세요.
    • 레이블: 선 끝 레이블 지정
    • 범례: 숨기기
    • 워크시트 서식: 채우기 색상을 자유롭게 변경해주세요.
  • 실습 예시
  • 힌트
    • 열: (Date(Calendar.Csv))
    • 행: 합계(Price(Calendar.Csv))
  • 내가 실습한 내용
  • 포인트



profile
2 B R 0 2 B

0개의 댓글