상관관계를 보여주는 스캐터 플롯, 분포를 나타내는 박스 플롯과 히스토그램,
패턴을 찾아볼 수 있는 하이라이트 테이블을 그려보면서 태블로의 다양한 차트를 연습한다.
15. 상관관계를 시각화하는 차트, 스캐터 플롯
- 스캐터 플롯(scatter plot)은 X축과 Y축으로 구성된 평면에 점을 흩뿌리는 방식으로 데이터를 표현하는 차트로 ‘산점도’라고 부르기도 한다.
- 이전 차트들과 달리, 2개의 측정값을 한 화면에 올린 후 그 둘의 관계에 집중하는 표현 방식
스캐터 플롯 그리기
-
첫 번째 측정값 선택
- Discount
-
두 번째 측정값 선택
-
계산된 필드 만들기
-
Profit Ratio 선택
-
(필요시) [행과 열 바꾸기]
-
분기하고자 하는 차원을 마크 카드의 [세부 정보]로 이동
-
Product Name 필드를 [세부 정보]로 이동
- 4년동안 회사에서 판매한 물건의 할인율-수익률 관계를 제품 수준으로 분기
- 제품 별 할인율에 따른 수익률 표현
-
요약 수치 확인
(이렇게 기본 집계를 평균으로 선택하면 되는 듯)
-
(필요시) 분석 패널을 선택한 후 추세선을 d&d
추세선(trend line) : 전체적인 경향과 두 측정 값의 관계를 가장 선명하게 보여주기 위한 표현
다음 섹션에 계속
16. 추세선 활용하기
-
추세선 선택
-
추세선 tooltip
- 할인율이 1단위 증가할 때 수익률은 1.2 단위 낮아진다. → 고객에게 1% 추가 할인 제공 시 수익률이 1.2% 감소한다는 결과.
- R2과 p-value 확인 가능
-
추세선 편집
-
다항식으로 수정
❗ 분석 패널의 추세선을 통해 그 관계를 더욱 선명히 드러낼 수 있다.
17. 분포를 시각화하는 차트 #1 - 박스 플롯
- 데이터 분석의 기본은 필드 내 값들의 분포를 파악하는 것 부터 시작된다.
- 필드가 가진 값들의 분포를 살펴보면서 현상을 이해하고 비정상적인 수치를 확인하는 것이 EDA의 핵심 과정
- 이 작업에 사용할 수 있는 차트가 박스 플롯(box plot)과 히스토그램
박스 플롯 그리기
- 측정값(Score) 클릭
- 차원(Student ID)을 마크 카드의 [세부 정보]로 d&d
- 차트 유형을 [원]으로 변경
- 분석 패널로 이동 후 박스 플롯을 d&d
- 마크 카드의 [크기] 선택 후 원 크기 조정
박스 플롯 뜯어보기
- 데이터 포인트(원)
- 박스(box)와 수염(whisker)
- 박스와 수염의 길이는 데이터의 분포에 따라 결정
- 상한 (Q3 + 1.5*IQR)
- Q3
- Q2(중앙값)
- Q1
- 하한 (Q1 - 1.5*IQR)
- IQR(Interqurtile Range, 사분범위): Q3 - Q1
- 이상치(Outlier)
18. 분포를 시각화하는 차트 #2 - 히스토그램
- 히스토그램(histogram)은 박스 플롯과 함께 분포를 시각화하는 차트
- ‘구간차원’이라는 바구니 안에 관측치를 담아서 바 차트 형태로 표현하는 시각화 기법
히스토그램 그리기 01
- 분석의 대상이 되는 측정값(Scores) 우클릭
- 팝업 메뉴에서 [만들기] → [구간차원] 클릭
- 구간 차원 크기를 5로 입력
- 생성된 구간차원을 열 선반 위로 d&d
- 차원(Student ID)을
option
키를 누른 채로 행 선반 위로 d&d 후 [카운트(고유)] 집계 선택
- (필요시) 열 선반 구간 차원을 우클릭 후 [연속형]으로 변환
히스토그램 그리기 02
- 분석 대상이 되는 측정값(Scores) 선택
- 작업창 오른쪽 상단 [표현 방식] 클릭
- [히스토그램] 선택
- (필요시) 자동으 생성된 구간 차원을 우클릭 후 편집을 통해 크기 조정
- 특정 필드의 값이 가운데 집중되어 있는지, 오른쪽으로 쏠려 있는지 (left-skewed), 왼쪽으로 쏠려 있는지 (right-skewed) 등을 쉽게 파악할 수 있음 (강점)
- [퀵 테이블 계산]의 [구성 비율] 선택으로 구간 별 구성 비율을 파악 할 수 있다.
19. 테이블을 직관적으로 표현하는 방식, 하이라이트 테이블
- 테이블 형식의 데이터 표현은 숫자 자체가 눈에 잘 들어오지 않는다는 단점이 명확
- 하이라이트 테이블(highlight table)은 여러 개의 숫자가 하나의 테이블 속에서 복잡하게 나타날 때 색상을 통해 어디가 높고 어디가 낮은지를 한 눈에 보여준다.
하이라이트 테이블 그리기 01 (정공법)
- 원하는 차원을 행 또는 열 선반에 d&d: 테이블의 틀 구성
- 측정값을 마크 카드의 [레이블]위에 d&d: 테이블 완성
- 앞서와 동일한 측정값을 마크 카드의 [색상]위에 d&d
- 마크 카드에서 차트 유형을 [사각형]으로 변경
하이라이트 테이블 그리기 02 (빌트인 차트 이용)
-
표현하기 원하는 측정값을 선택
-
테이블 구성에 필요한 모든 차원을 cmd 키를 누른 채로 선택
-
태블로 작업창 오른쪽 상단 [표현 방식] 선택
-
표현 방식 오른쪽 상단 [하이라이트 테이블] 선택
-
(추가) 분석 패널 → [요약] → [총계] d&d
-
(추가) Address Region 필드를 Address SD 앞에 추가 후 [총계]를 [소계] 위로 d&d
- 소계는 행 또는 열이 2개 이상의 차원으로 나뉘어 있을 때 만들 수 있는 부분합 개념
❗소계는 행 또는 열이 2개 이상의 차원으로 나뉘어 있을 때 만들 수 있는 부분합 개념
2개 이상의 측정값으로 하이라이트 테이블 만들기
-
원하는 차원을 행 또는 열로 d&d (테이블 틀 구성)
-
첫 번째 측정값을 마크 카드의 [레이블]위로 d&d
-
두 번째 측정값을 화면 안쪽 첫 번째 측정값이 표기된 숫자 위로 d&d
-
(필요시) 세 번째 측정 값을 두 번째 측정값과 동일한 방식으로 d&d
-
마크 카드의 [텍스트]에 있는 ‘측정값’ 필드를 cmd 키를 누른 채로 마크 카드의 [색상]위로 복제
-
차트 유형을 [사각형]으로 변경
-
(추가) 각 측정 값에 대하여 서로 다른 색상 체계 적용
- [색상]에 올라간 ‘측정값’ 필드 우클릭 후 [별도의 범례 사용] 선택
- 색상 지정 가능
하이라이트 테이블을 통한 패턴 찾기
- 하이라이트 테이블을 활용하여 패턴을 확인할 수 있다.
- ‘패턴을 찾는다’ 는 것은 어떠한 경향성을 찾아서 일반화하고 이를 기반으로 예측하고 의사결정을 하는 데이터 분석의 본질과 맞닿아 있다.
- 대표적인 하이라이트 테이블 예시 → 깃허브 잔디
어디로?태블로! 스터디
Let's 태블로, 쉽게 따라하는 데이터 시각화, 최정민, 류지호, 생능북스