[Tableau] Chapter 04. 데이터 시각화 기본 차트, 무작정 따라 그리기 (2)

ja_efan·2024년 12월 29일
0

Tableau

목록 보기
4/4
post-thumbnail

상관관계를 보여주는 스캐터 플롯, 분포를 나타내는 박스 플롯과 히스토그램,
패턴을 찾아볼 수 있는 하이라이트 테이블을 그려보면서 태블로의 다양한 차트를 연습한다.

15. 상관관계를 시각화하는 차트, 스캐터 플롯

  • 스캐터 플롯(scatter plot)은 X축과 Y축으로 구성된 평면에 점을 흩뿌리는 방식으로 데이터를 표현하는 차트로 ‘산점도’라고 부르기도 한다.
  • 이전 차트들과 달리, 2개의 측정값을 한 화면에 올린 후 그 둘의 관계에 집중하는 표현 방식

스캐터 플롯 그리기

  1. 첫 번째 측정값 선택

    1. Discount
  2. 두 번째 측정값 선택

    1. 계산된 필드 만들기

    2. Profit Ratio 선택

  3. (필요시) [행과 열 바꾸기]

    • Discount의 집계를 ‘평균’으로 변경
  4. 분기하고자 하는 차원을 마크 카드의 [세부 정보]로 이동

    1. Product Name 필드를 [세부 정보]로 이동

      1. 4년동안 회사에서 판매한 물건의 할인율-수익률 관계를 제품 수준으로 분기
      2. 제품 별 할인율에 따른 수익률 표현
    2. 요약 수치 확인

      (이렇게 기본 집계를 평균으로 선택하면 되는 듯)

  5. (필요시) 분석 패널을 선택한 후 추세선을 d&d

    추세선(trend line) : 전체적인 경향과 두 측정 값의 관계를 가장 선명하게 보여주기 위한 표현

    다음 섹션에 계속

16. 추세선 활용하기

  • 추세선 선택

  • 추세선 tooltip

    • 할인율이 1단위 증가할 때 수익률은 1.2 단위 낮아진다. → 고객에게 1% 추가 할인 제공 시 수익률이 1.2% 감소한다는 결과.
    • R2p-value 확인 가능
  • 추세선 편집

    • 다항식으로 수정

분석 패널의 추세선을 통해 그 관계를 더욱 선명히 드러낼 수 있다.

17. 분포를 시각화하는 차트 #1 - 박스 플롯

  • 데이터 분석의 기본은 필드 내 값들의 분포를 파악하는 것 부터 시작된다.
  • 필드가 가진 값들의 분포를 살펴보면서 현상을 이해하고 비정상적인 수치를 확인하는 것이 EDA의 핵심 과정
  • 이 작업에 사용할 수 있는 차트가 박스 플롯(box plot)히스토그램

박스 플롯 그리기

  1. 측정값(Score) 클릭
  2. 차원(Student ID)을 마크 카드의 [세부 정보]로 d&d
  3. 차트 유형을 [원]으로 변경
  4. 분석 패널로 이동 후 박스 플롯을 d&d
  5. 마크 카드의 [크기] 선택 후 원 크기 조정

박스 플롯 뜯어보기

  • 데이터 포인트(원)
  • 박스(box)와 수염(whisker)
    • 박스와 수염의 길이는 데이터의 분포에 따라 결정
  • 상한 (Q3 + 1.5*IQR)
  • Q3
  • Q2(중앙값)
  • Q1
  • 하한 (Q1 - 1.5*IQR)
    • IQR(Interqurtile Range, 사분범위): Q3 - Q1
  • 이상치(Outlier)
    • 상한 초과 or 하한 미만

18. 분포를 시각화하는 차트 #2 - 히스토그램

  • 히스토그램(histogram)은 박스 플롯과 함께 분포를 시각화하는 차트
  • ‘구간차원’이라는 바구니 안에 관측치를 담아서 바 차트 형태로 표현하는 시각화 기법

히스토그램 그리기 01

  1. 분석의 대상이 되는 측정값(Scores) 우클릭
  2. 팝업 메뉴에서 [만들기] → [구간차원] 클릭
  3. 구간 차원 크기를 5로 입력
  4. 생성된 구간차원을 열 선반 위로 d&d
  5. 차원(Student ID)을 option키를 누른 채로 행 선반 위로 d&d 후 [카운트(고유)] 집계 선택
  6. (필요시) 열 선반 구간 차원을 우클릭 후 [연속형]으로 변환

히스토그램 그리기 02

  1. 분석 대상이 되는 측정값(Scores) 선택
  2. 작업창 오른쪽 상단 [표현 방식] 클릭
  3. [히스토그램] 선택
  4. (필요시) 자동으 생성된 구간 차원을 우클릭 후 편집을 통해 크기 조정
  • 특정 필드의 값이 가운데 집중되어 있는지, 오른쪽으로 쏠려 있는지 (left-skewed), 왼쪽으로 쏠려 있는지 (right-skewed) 등을 쉽게 파악할 수 있음 (강점)
  • [퀵 테이블 계산]의 [구성 비율] 선택으로 구간 별 구성 비율을 파악 할 수 있다.

19. 테이블을 직관적으로 표현하는 방식, 하이라이트 테이블

  • 테이블 형식의 데이터 표현은 숫자 자체가 눈에 잘 들어오지 않는다는 단점이 명확
  • 하이라이트 테이블(highlight table)은 여러 개의 숫자가 하나의 테이블 속에서 복잡하게 나타날 때 색상을 통해 어디가 높고 어디가 낮은지를 한 눈에 보여준다.

하이라이트 테이블 그리기 01 (정공법)

  1. 원하는 차원을 행 또는 열 선반에 d&d: 테이블의 틀 구성
  2. 측정값을 마크 카드의 [레이블]위에 d&d: 테이블 완성
  3. 앞서와 동일한 측정값을 마크 카드의 [색상]위에 d&d
  4. 마크 카드에서 차트 유형을 [사각형]으로 변경

하이라이트 테이블 그리기 02 (빌트인 차트 이용)

  1. 표현하기 원하는 측정값을 선택

  2. 테이블 구성에 필요한 모든 차원을 cmd 키를 누른 채로 선택

  3. 태블로 작업창 오른쪽 상단 [표현 방식] 선택

  4. 표현 방식 오른쪽 상단 [하이라이트 테이블] 선택

  5. (추가) 분석 패널 → [요약] → [총계] d&d

  6. (추가) Address Region 필드를 Address SD 앞에 추가 후 [총계]를 [소계] 위로 d&d

    • 소계는 행 또는 열이 2개 이상의 차원으로 나뉘어 있을 때 만들 수 있는 부분합 개념

소계는 행 또는 열이 2개 이상의 차원으로 나뉘어 있을 때 만들 수 있는 부분합 개념

2개 이상의 측정값으로 하이라이트 테이블 만들기

  1. 원하는 차원을 행 또는 열로 d&d (테이블 틀 구성)

  2. 첫 번째 측정값을 마크 카드의 [레이블]위로 d&d

  3. 두 번째 측정값을 화면 안쪽 첫 번째 측정값이 표기된 숫자 위로 d&d

  4. (필요시) 세 번째 측정 값을 두 번째 측정값과 동일한 방식으로 d&d

  5. 마크 카드의 [텍스트]에 있는 ‘측정값’ 필드를 cmd 키를 누른 채로 마크 카드의 [색상]위로 복제

  6. 차트 유형을 [사각형]으로 변경

  7. (추가) 각 측정 값에 대하여 서로 다른 색상 체계 적용

    1. [색상]에 올라간 ‘측정값’ 필드 우클릭 후 [별도의 범례 사용] 선택
    2. 색상 지정 가능

하이라이트 테이블을 통한 패턴 찾기

  • 하이라이트 테이블을 활용하여 패턴을 확인할 수 있다.
  • ‘패턴을 찾는다’ 는 것은 어떠한 경향성을 찾아서 일반화하고 이를 기반으로 예측하고 의사결정을 하는 데이터 분석의 본질과 맞닿아 있다.
  • 대표적인 하이라이트 테이블 예시 → 깃허브 잔디

어디로?태블로! 스터디
Let's 태블로, 쉽게 따라하는 데이터 시각화, 최정민, 류지호, 생능북스

profile
이것저것.

0개의 댓글