[040]Tableau - 데이터 전처리 및 기본컨셉 이해하기

이연희·2023년 10월 17일
0

Chapter
📗 1. 데이터 연결하기
📗 2. 데이터 탐색 및 전처리하기
📝 (1) 데이터 탐색하기
📝 (2) 전처리하기
📗 3. 기본컨셉 이해하기
📝 (1) 인터페이스
📝 (2) 차원 vs. 측정값
📝 (3) - 연속형 데이터 vs. 불연속형 데이터

📗 1. 데이터 연결하기

우선 tableau를 처음 실행하면 다음과 같은 화면이 뜬다.

다양한 파일을 통해 데이터를 연결할 수도 있고, 심지어는 서버와 연결해서 직접 데이터를 가져올 수도 있다. 엑셀파일을 연결해서 데이터를 확인해보자.

엑셀파일은 위와같인 네 개의 시트로 이루어진 파일이었다.
좌측패널에 'Microsoft Excel'을 연결해서 파일을 찾을 수도 있고 직접 파일을 드래그해서 데이터를 불러올 수도 있다.

파일을 열었다면 다음과 같이 파일 안에 든 데이터를 확인할 수 있다.

.
.
.
.

📗 2. 데이터 탐색 및 전처리하기

📝 (1) 데이터 탐색하기

이제 데이터를 탐색하면서 분석에 맞게 전처리하는 방법에 대해 알아보자. 먼저 Orders 데이터를 열어보았다.
다음과 같이 필드에 대한 정보와 각 필드별 데이터타입과 데이터를 확인해볼 수 있다.

tableau를 통해서 sql로 데이터를 다뤘듯이 union을 하거나 join을 할 수도 있다.
데이터 출력창 위에 있는 데이터 파일 이름('Orders')에 마우스 커서를 갖다 대면 네모 칸안에 아래화살표(▼)가 생긴다. 여기서 '유니온 편집'을 누르면 다음과 같이 편집창이 뜬다. 여기서 원하는 파일을 드래그해서 집어넣으면 union관계를 설정할 수 있다. 조심해야할 것은 sql에서도 그랬듯이 데이터형식이 같아야 union을 할 수있다는 점이다.

join을 할 때에는 orders데이터가 떠있는 회색 네모칸을 더블클릭해서 physical table로 전환해야 한다(ⓐ). 그런 다음 원하는 원하는 데이터를 끌어다 놓으면 된다(ⓑ).

그렇게 되면 자동으로 inner join으로 형성되는데 가운데의 밴다이어그램을 클릭하면 join 방식을 수정할 수 있다.

이렇게 join이 설정되면 아래 창에 inner join된 테이블 결과를 확인할 수 있다.

.
.

📝 (2) 전처리하기

1) 필드명 변경하기

데이터 파일을 열었을 때 아래에 보이는 데이터 결과창에서 필드명을 더블클릭하면 필드명을 수정할 수 있다.

2) 데이터 타입 변경하기

필드명 위의 데이터타입 아이콘을 클릭하면 데이터타입을 변경할 수 있다.

3) 필터기능 활용하기

분석에서 사용자가 원하는 범위나 값의 데이터만을 활용하고 싶을 때 tableau 오른쪽 상단의 필터 > 추가를 눌러서 편집할 수 있다.

예를 들어 Category필드에서 funiture value만을 출력해본다.

Category필드 선택'furniture' value 선택결과 창

'Order Date'필드에서 2020년 자료만 출력해보았다.

Order Date 필드'년' 선택'2020' 선택결과창

원하는 값의 범위를 지정할 수도 있다.
Sales 필드에서 100~3,000범위의 데이터를 출력했다.

Sale 필드 선택범위 지정결과창

.
.
.
.

📗 3. 기본컨셉 이해하기

📝 (1) 인터페이스

데이터원본 창에서 오른쪽 하단에 '새 워크시트'를 클릭하면 다음과 같은 화면으로 넘어간다.

좌측 패널에 필드값들이 나열되어 있는 것을 볼 수 있는데, 하나씩 클릭하면 해당 필드를 행이나 열등에 두어서 시각화할 수 있다.
우선 Sales필드를 더블클릭했다.

다음과 같이 저절로 행에 위치된 것을 볼 수 있다. 이때 그래프의 종류나, 그래프의 색상, 레이블 조정 등과 같은 세부사항은 화면에 위치한 '마크' '표현방식'을 통해서 변경할 수 있다.

📝 (2) 차원 vs. 측정값

왼쪽 패널에 나열된 필드 목록을 보면 실선을 기준으로 두 구역으로 나뉜 것을 볼 수 있다.

이 때 상단에 위치한 필드를 '차원', 하단에 위치한 필드를 '측정값'이라고 한다.

  • 차원: 정성적인 값(ex.이름,날짜). 차원을 사용하여 데이터의 세부 정보 분류 표시 가능
  • 측정값: 정량적인 수치. 집계 가능.

측정값을 더블클릭하거나 행으로 드래그하면 자동으로 집계가 되는데(ⓐ),
만약 측정값을 뷰에 내려 놓으면 차트 형태가 아닌 집계된 결과값을 보여준다(ⓑ).(마크 카드에 텍스트로 표현됨)

필드가 날짜타입일 경우 계층이 저절로 잡힌다. 아래는 'Order Date' 필드를 행으로 드래그하고, 'Sales'필드를 뷰에 내려놓아 연도별 판매액을 집계한 결과이다. 저절로 연도별로 집계된 것을 확인할 수 있다.

만약 날짜를 더 세부적으로 집계하고 싶으면 행에 위치한 'Order Date' 필드앞에 놓인 (+)버튼을 클릭해서 세부집계하면 된다.
분기별, 월별, 일별집계된 결과이다.

분기별월별일별(날짜별)

집계된 결과가 가시적으로 잘 보이지가 않아 '표현방식'에 있는 그래프를 선택하여 다음과 같이 표현할 수도 있다.

📝 (3) - 연속형 데이터 vs. 불연속형 데이터

필드에 들어있는 데이터에 따라 연속형과 불연속형으로 나뉜다.
이때, 좌측 패널을 보면 차원은 파란색, 측정값은 초록색으로 표시되어 있는 것을 볼 수 있다. 단순 차원과 측정값의 구분만이 아니라, tableau안에서 연속형은 초록색으로 표시되고, 불연속형은 파란색으로 표시된다. 또한 연속형 데이터는 '축'으로 불연속형 데이터는 '머리글'에 표시가 된다.

예시로 축과 머리글을 구분해보자. 연속형 데이터, 차원 중에 하나의 필드(Category)과 불연속형 데이터, 측정값 중 하나의 필드(Sales)를 각각 더블클릭하여 저절로 집계되도록 했다. 다음과 같은 막대그래프가 생긴 것을 확인할 수 있다.

여기서 각각 Category와 Sales 레이블의 서식을 확인하면 머리글과 축으로 표시된 것을 볼 수 있다.

Category 레이블 서식 확인 - 머리글Sales 레이블 서식 확인 - 축

불연속형 변수를 연속형으로 만들 수도 있다. 예를 들어 날짜(order date)를 열로 끌어놨을 때 오른쪽 마우스 버튼 누르면 (2015년-5월-8일)과 같은 연속형 형식으로 전환할 수 있다.

Order Date - 불연속형 데이터일 때Order Date - 연속형 데이터로 전환

그래프로 집계했을 때 value별 색상을 달리할 수도 있다.
먼저, sub_category별 매출액을 막대그래프로 만들었다.(이때 저절로 집계된 결과에서 행-열을 교체시키고 내림차순하였다.)

위와 같은 그래프에서 불연속형 필드인 'Sub-Category'필드를 ctrl을 누른 상태에서 드래그하여 마크영역으로 끌어내려, 'Sub-Category' 옆의 점 세개 아이콘 안의 색상버튼을 누른다. 그렇게 하면 다음과 같이 value별로 다르게 색상이 입혀진 것을 확인할 수 있다.

이번에는 연속형 필드인 'Sales'를 마크영역으로 옮겼더니 단순 색생 구분이 아닌, 그라데이션으로 색상 구분이 된 것을 확인할 수 있다.

profile
안녕하세요, 데이터 공부를 하고 있습니다.

0개의 댓글