[Tableau] Tableau Bootcamp Day1

jul ee·2025년 4월 22일

데이터 성장기

목록 보기
78/139

Tableau Korea에서 주최한 자기주도형 부트캠프에 참여했다.

데이터 분석 결과를 해석하고 이를 전달할 때, 그 상대는 데이터에 대한 이해도가 각기 다를 수 있다고 생각한다. 어떤 상황에서도 직관적인 의사 전달과 원활한 소통이 가능하려면 태블로 등의 시각화툴을 자유롭게 다루는 역량이 필요하다고 느꼈고, 좋은 기회로 참여하게 되었다.


<Tableau Bootcamp 입문편>은 Tableau 기초부터 비즈니스 레벨까지 데이터 역량과 경험을 향상시킬 수 있는 과정이었다.

2025.04.18 - 2025.05.02

약 2주 간 수행한 퀘스트를 정리하면서, 이번 기회를 통해 쌓게 된 지식을 완전히 내 것으로 만들고자 한다.



1일차 퀘스트에서는

📁"스타벅스 메뉴 데이터"와 📁"매장 정보 데이터"를 이용해 시각적 분석을 하고 대시보드를 만들었다.

[1]  카테고리 별 평균 칼로리 & 평균 카페인
[2]  메뉴명 별 칼로리 & 카페인
[3]  카테고리와 메뉴명을 한 번에 살펴보기
[4]  당분 함유량과 칼로리의 상관관계
[5]  시/군/구 별 매장 분포 현황
[6]  대시보드 만들기





[1]  카테고리 별 평균 칼로리 & 평균 카페인

첫번째 과제에서는 막대 차트를 활용하여 카테고리 별 평균 칼로리와 평균 카페인을 구하는 시각화를 수행한다.

💡 왜 막대 차트를 사용할까?

막대 차트는 값의 크기를 비교하는데 유용한 시각화이다. 수치 데이터 값들 간의 양적 차이를 비교하는데 유용하기 때문에 가장 보편적으로 사용되는 시각화 중에 하나이다.

  • 특정 참조선 (e.g., 평균값, 중간값) 등을 표현해 해당 막대의 참조선 도달 여부를 비교할 수도 있고,
  • Bar in Bar 차트를 통해 목표값 도달 여부도 함께 살펴볼 수 있다.

💡 왜 집계 형태를 "평균"으로 변경해야 할까?

하나의 카테고리 안에는 여러 개의 메뉴가 있다. 카테고리를 기준으로 합계로 집계하면, 카테고리 안에 있는 모든 메뉴들의 카페인 값이 모두 더해져서 카테고리 별 메뉴들의 총 합계 칼로리 & 총 합계 카페인 값이 보여진다. 카테고리 별로 평균 칼로리와 평균 카페인 값을 보는 것이 필요하기 때문에 집계 형태를 "평균"으로 변경해야 한다.




[2]  메뉴명 별 칼로리 & 카페인

1번 과제에서 카테고리 수준에서 칼로리와 카페인을 시각화 했다면, 이번에는 트리맵을 활용하여 메뉴명 수준까지 표현해 본다.

💡 트리맵이란?

트리맵은 계층 구조의 데이터를 표시하는데 적합한 시각화로, 전체 대비 부분의 비율을 비교하는데 많이 사용한다.

  • 사각형의 크기와 색상에 따라 데이터의 패턴을 확인할 수 있고,
  • 많은 양의 데이터를 한눈에 파악할 수 있다는 장점이 있다.

💡 이번에는 왜 칼로리와 카페인의 집계를 평균으로 변경하지 않을까?

Tableau는 화면에 포함된 차원에 따라서 측정값을 집계하는데,

  • 1번 과제에서는 "카테고리"를 기준으로 칼로리와 카페인의 평균 값을 계산했다면,
  • 2번 과제에서는 "메뉴명"을 기준으로 칼로리와 카페인 값을 계산하는 것이다.

현재 데이터의 가장 낮은 행 수준이 메뉴명으로, 메뉴명은 유일하게 구분되고 중복되지 않는 값이다. 하나의 메뉴명에는 하나의 칼로리, 하나의 카페인 값이 있다는 것으로 이해할 수 있다. 결과적으로, 메뉴명을 기준으로 칼로리와 카페인 값을 합계로 계산해도 평균으로 계산해도 결과는 동일하다. 따라서 별도로 집계를 "평균"으로 설정하지 않은 것이다.




[3]  카테고리와 메뉴명을 한 번에 살펴보기

앞서 만든 "카테고리" 기준 시트와, "메뉴명" 기준 시트를 활용해서, 한 번에 살펴볼 수 있는 형태로 만들어 본다.

Tableau의 기능 중 "도구 설명"을 이용하여 카테고리에 마우스를 오버하면 해당 카테고리에 소속된 메뉴의 시각화 정보를 살펴볼 수 있도록 작업한다.




[4]  당분 함유량과 칼로리의 상관관계

당분 함유량이 높을수록 칼로리가 높을까? 스캐터 플롯 (산점도) 시각화 기능을 사용해 당분과 칼로리의 상관관계를 살펴본다.

당류가 높을수록 칼로리가 높은 것을 볼 수 있고, 비슷한 당류가 들어가도 칼로리가 메뉴에 따라 달라진다는 것을 확인할 수 있다.

💡 스캐터 플롯이란?

2개의 연속형 데이터에 대한 상관관계를 분석하는데 가장 많이 사용되는 시각화이다.

  • 두 개의 축으로 데이터가 얼마나 퍼져 있는지에 대한 분포를 살펴볼 수도 있고
  • 상수 라인 / 평균 라인 / 사분위수 라인을 추가하여 값의 분포를 비교하기에도 유용하다.



[5]  시/군/구 별 매장 분포 현황

어느 시/군/구에 스타벅스 매장이 가장 많을까? "맵"을 이용해 시/군/구 별 매장의 분포를 시각화한다.




[6] 대시보드 만들기

1~3번 과제에서 만든 "카테고리 별 평균 칼로리와 평균 카페인", "당분 함유량과 칼로리의 상관관계" 시트를 이용해 대시보드를 만든다.





인사이트 및 회고

분석 결과를 전달하기 위해 차트를 그리고 대시보드를 만들기 위해서는

"왜 이 차트를 쓰는지", "무엇을 보여주고 싶은지", "어떤 기준으로 집계해야 하는지"를 계속 고민해아 한다는 방향을 잡을 수 있었다.

같은 데이터라도, 집계 방식에 따라 인사이트가 완전히 달라진다. 메뉴명이 고유할 땐 합계와 평균이 같지만, 중복되면 큰 왜곡이 생길 수 있다는 것을 살펴봤다.

차트를 선택할 때, 예쁘거나 익숙해서 고르는 것이 아니라 데이터 구조와 전달 목적에 따라 가장 효과적인 형태를 골라야 한다. Tableau는 클릭 몇 번으로 결과를 보여주지만, 그 전에 '어떤 질문을 던질 것인가'가 더 중요하는 점에서 데이터를 보는 시선과 해석의 논리가 역시 중요하다는 것을 명심하게 되었다.

퀘스트를 완료해 가면서 데이터에서 인사이트를 발견하고 전달하는 과정의 재미를 느끼게 될 것 같다 :)

profile
AI에 관심을 가지고, 데이터로 가치를 만들어 나가는 과정을 기록합니다.

0개의 댓글