[zero-base/] DS Part 8. Tableau - 51일차 스터디 노트

손윤재·2024년 2월 13일

제로베이스 DS 22기

목록 보기
52/55
post-thumbnail

Tableau Public

Tableau Public은 무료인 대신 완전 공개가 원칙이다.

  • Tableau Public은 작업파일을 개인PC에 저장할 수 없다.
    ➡ Tableau 계정의 Tableau Public에 저장한다.

태블로 데이터 처리


🔰 데이터 연결

  • 데이터는 파일(Excel, Text, JSON, PDF, 등)이나 서버(Google Driver, Google Sheets, 등)에서 가져올 수 있다.

🔰 데이터 전처리


⏺ 데이터 결합: UNION

  • 한 테이블의 행을 다른 테이블에 추가하여 여러 테이블을 통합하는 결합 방식
  • 주의할 점! Union으로 결합하려는 데이터의 테이블은 같은 구조여야 한다.

⏺ 데이터 결합: JOIN

  • 특정 키값으로 두 데이터 테이블을 결합하는 방식

  • 논리적 테이블을 더블클릭하여 물리적 테이블 화면으로 들어간 후 Join할 데이터를 Drag & Drop하면 자동으로 Inner Join이 생성된다.

  • Join 방식은 변경할 수 있다.



태블로 기본 컨셉 이해


🔰 태블로 인터페이스


🔰 데이터 필드

데이터 필드는 데이터 원본의 열에서 만들어진다.
각 필드에는 정수, 문자열, 날짜 등과 같은 데이터 유형과 불연속형 차원이나 연속형 측정값 또는 연속형 차원이나 불연속형 측정값이 자동으로 할당된다.


⏺ 차원 vs 측정값

📍 차원

  • 정성적 값(예: 이름, 날짜, 지리적 데이터 등)을 포함한다.

  • 데이터를 범주화하거나 분할하는 역할을 한다.

  • 차원을 사용하여 데이터의 세부 정보를 분류하고 나누고 표시할 수 있다.

  • 차원은 뷰의 세부 수준에 영향을 미친다.

  • 날짜 데이터는 자동 계층화된다.
    최상위 ‘년’차원이 기본 생성되고 +버튼을 클릭하여 하위 계층을 추가할 수 있다.

📍 측정값

  • 측정할 수 있는 정량적 수치 값을 포함한다.

  • 수량화 가능한 데이터나 계산 및 집계가 가능한 숫자 데이터이다.

  • 데이터의 양, 크기, 빈도 등을 나타낸다. ex> 매출액, 판매량, 이익, 등

  • 측정값은 기본적으로 집계(합계, 평균, 최대, 최소 등)할 수 있다.

  • 측정값을 뷰에 끌어다 놓으면 Tableau가 자동으로 해당 측정값에 집계를 적용한다.


⏺ 연속형 vs 불연속형

Tableau는 필드가 불연속형(파란색 필드)인지 아니면 연속형(녹색 필드)인지에 따라 뷰에서 데이터를 다르게 표시한다.

📍 연속형

  • '중단 없이 끊기지 않은 전체를 형성한다'는 뜻이다.

  • 이 필드는 녹색으로 표시되고,

  • 행 또는 열 선반에 연속형 필드를 배치하면 뷰에 (Axis)이 만들어진다.

📍 불연속형

  • '개별적으로 분리 및 구분된다'는 의미이다.

  • 이 필드는 파란색으로 표시되고,

  • 행 또는 열 선반에 불연속형 필드를 배치하면 뷰에 머리글(Header)이 만들어진다.



✅ 다양한 필드가 뷰에 표시되는 모양



🔰 View

  • 뷰에 사용된 연속형 및 불연속형 필드의 예

    • 왼쪽에 있는 예에서 Quantity(수량) 필드가 연속형이기 때문에 뷰 아래쪽에 가로 축이 생성된다. 녹색 알약 모양과 축을 통해 해당 필드가 연속형 필드임을 알 수 있다.
    • 오른쪽의 예에서 Quantity(수량) 필드는 불연속형이다. 이 필드는 축 대신 가로 방향의 머리글을 생성한다. 파란색 알약 모양과 가로 방향의 머리글은 필드가 불연속형인 것을 확인하는 데 도움이 된다.
    • 두 예에서 Sales(매출) 필드는 연속형으로 설정되어 있다. 이 필드는 연속형이고 행 선반에 있기 때문에 세로 축을 생성합니다. 이 필드가 열 선반에 있었다면 가로 축이었을 것이다. SUM 집계는 필드가 측정값임을 나타낸다.

⏺ 축 vs 머릿글

📍 축(Axis)

  • 축은 연속형 데이터를 표시하는 데 사용된다.
  • 축은 데이터의 최소값과 최대값 사이를 연속적으로 표현하며, 시각화에서 데이터의 범위를 나타낸다.
  • 예를 들어, 수치를 나타내는 선 그래프나 막대 그래프에서 수량의 변화를 보여주는 축이 이에 해당합니다.

📍 머릿글(Header)

  • 머릿글은 불연속형 데이터를 표시하는 데 사용된다.
  • 머릿글은 각 범주형 데이터를 별도의 항목으로 구분하여 표현하며, 시각화에서 각 범주를 구분하는 데 사용된다.
  • 예를 들어, 막대 그래프에서 각 막대가 나타내는 범주명을 보여주는 부분이 머릿글이다.


✅ 마크영역의 색상으로 Drag & Drop

  • 연속형 필드는 색상이 그라데이션(gradation, 단계적 차이)으로 표현된다.

  • 불연속형 필드는 머릿글(범주)별로 다른 색상이 할당되어 표시된다.


profile
ISTP(정신승리), To Be Data Scientist

0개의 댓글