1. Business Intelligence (BI) 비즈니스 인텔리전스(BI)는 조직에서 사람과 기술의 힘을 사용하여 전략적 및 일상적 의사 결정 프로세스에 사용될 데이터를 수직하고 분석하는 프로세스이다.(출처: Google Cloud) 조직이 좀 더 데이터 기반
1. Tableau 설치 1.1 Tableau Desktop 설치 1) Tableau Desktop 설치를 위해 여기 클릭하기 2) 무료 평가판 시작 버튼 클릭 3) 개인정보 기입 후 무료 평가판 다운로드 클릭 4) 다운로드 후 Tableau Desktop 실
비즈니스 데이터 분석가(Business Analyst, BA)는 내부 지표만으로는 충분하지 않다. 비즈니스 전략과 밀접한 관련이 있기 때문에, 넓은 시야와 다양한 관심사가 필요하다.1) 도메인 지식: 해당 산업이나 업무 분야에 대한 이해는 분석을 가능하게 한다. 이는
List comprehension은 리스트를 간결하게 생성해내는 문법이다.예를 들어 아래와 같이 짝수로 이루어진 리스트를 필요로 한다고 가정을 한다면,2, 4, 6, 8, 10, ..., 20list comprehension 대신에 반복문을 사용하면 아래와 같다.단순히
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xbb in position 0: invalid start byte위와 같은 에러가 발생하였다.위의 오류는 주로 파일의 인코딩이 'UTF-8'이 아니라서 발생하는데, 이 경우
대시(-)는 정수로 변환할 수 없는 문자열이다. 따라서 int('-')와 같은 연산은 위와 같이 ValueError를 발생시킨다.1) 숫자로 이루어진 문자열 (예: '137060') -> 형변환을 해준다 (결과: 137060)2) 문자 ('-') -> 문자 '0'으로
여러 개의 파일을 처리해야 할 때는 하나하나 전처리를 진행하는 것은 비효율적일 수 있다. 이런 경우에는 반복문을 사용하여 자동화된 전처리 과정을 구현하는 것이 좋다. 예를 들어, 여러 개의 파일이 특정한 폴더에 있다면, 다음과 같은 과정을 통해 전처리를 자동화할 수
pivot() 메서드는 데이터를 재구조화하는데 사용되며, 중복된 항목이 있는 경우에는 데이터를 재배치할 수 없기 때문에 위와 같이 에러가 발생한다.하지만 pivot_table() 메서드는 집계 기능을 포함하고 있어 아래와 같이 중복된 항목이 있어도 집계를 할 수 있다.
concat() 함수는 Pandas에서 사용되는 데이터프레임을 합치는 함수이다. 이 함수를 사용하면 여러 개의 데이터프레임을 행 또는 열 방향으로 합칠 수 있다.기본적으로 concat() 함수는 행 방향(axis=0)으로 데이터프레임을 연결한다. 이 경우에는 인덱스가
대시보드를 만들기 전에 왜 대시보드를 만들어야 하는지에 대해 생각하는 것은 매우 중요하다. 대시보드는 데이터 분석의 결과를 시각적으로 표현하여 사용자에게 정보를 전달하고 의사 결정을 지원하는 도구이다. 이를 통해 조직이나 개인은 데이터에 기반한 효율적인 의사 결정을 내
1) Tableau Public 실행2) 왼쪽 페널 '연결'에서 Google Drive 선택3) 구글 계정 로그인한 후 허용 클릭4) 인증창 닫기5) Google Drive에 연결 팝업창에서 파일 선택아래 이미지와 같이 파일이 잘 불러온 것을 확인할 수 있다.6) '운
1) Tableau Public 실행2) 데이터에 연결하기 위해 데이터에 연결 버튼 클릭3) 데이터 소스 선택: 연결 화면에서 다양한 데이터 소스들이 표시가 된다.4) 원하는 데이터 소스 선택: 예를 들어, 여기서는 '슈퍼스토어 - 샘플' 선택하여 진행할 것이다.사이드
Tableau는 데이터셋을 가져올때 자동적으로 데이터가 어떤 성격을 갖고 있는 데이터인지 판단해준다. 데이터의 성격은 데이터타입일 수 있다. 예를 들어, '고객이름' 데이터
데이터 필드의 색상은 해당 필드가 연속형인지 불연속형인지를 나타낸다.연속형과 불연속형은 수학적 용어입니다. 연속형은 "단절이 없고 끊어지지 않는 완전체 형성"을 의미하고, 불연속형은 "개별적으로 구분"된다는 의미입니다.연속형(녹색): 연속형 필드는 끊어지지 않고 연속된
'상품군별(1)'은 차원이기 때문에 태블로에서 테이블로 뷰에 표시된다. 측정값인 '거래액'을 더블클릭 또는 드래그앤드롭으로 해당 테이블에 올리게 되면 뷰에 표시가 된다. 아래의 이미지와 같이 단 두번의 더블클릭으로 표가 생성이 된다. 위의 표에도 간단한 시각화
Tableau에서 기본적으로 사용하는 집계 방식을 알아보자.Tableau에서 기본적으로 사용하는 집계 방식은 측정값의 특성에 따라 자동으로 설정된다. 대부분의 경우, 숫자형 측정값은 합계로 집계되고, 문자열 측정값은 카운트로 집계된다.측정값 카드에서 '거래액'은 기본적
바 그래프를 사용하면 상품군별 거래액을 시각적으로 비교할 수 있어서 데이터를 이해하기 쉽다.1) 새로운 시트 열기2) '거래액' 필드 더블클릭3) '상품군별(1)' 필드 더블클릭위와 같이 상품군별 거래액을 나타내는 바 그래프가 생성되었다.4) 상단 툴바에서 행과 열 바
1) 운영형태별 필드 행 선반에 추가바 그래프가 상품군별 운영형태별의 거래액을 나타내는 그래프로 변했다.위의 바 그래프는 가독성이 좋지 못하다. 그 이유는 '상품군별'은 10개 이상의 카테고리가 있고, '운영형태별'도 '온・오프라인 병행몰'과 '온라인 전용몰'로 구분되
1) 새로운 시트 열기2) 거래액 더블클릭3) 상품군별(1) 더블클릭4) 오른쪽 상단의 표현 방식 클릭5) 파이차트 선택6) 툴바에서 맞춤을 전체보기로 선택7) 툴바에서 내림차순 정렬 선택이렇게 하면 파이 차크가 거래액을 기준으로 상품군을 나타내게 된다.1) 상품군별(
1) 매출 필드 더블클릭2) 주문 날짜 필드 더블클릭Tableau에서 '주문 날짜'를 날짜 필드로 인식하기 때문에 자동으로 시계열 그래프를 그린다.3) 세그먼트 필드를 섹상 마크에 드래그앤드랍4) 매출 필드를 레이블 마크에 드래그앤드랍위의 라인 그래프를 통해 세그먼트별
1) 새로운 시트 열기2) 거래액 필드 더블클릭3) 날짜 필드 더블클릭위와 같이 라인 그래프가 생성이 된다. 위쪽의 열 선반을 보면 날짜가 년도로 표시되면서 연도별 그래프를 표시하는 라인 그래프이다.분기 또는 월로 표현하려면 열 선반에 있는 '년' 필드를 클릭한 후 드
영역 차트를 살펴보면 1개의 날짜가 필수적으로 필요하다라는 것을 알 수 있다.1) 새로운 시트 열기2) 거래액 필드 더블클릭3) 날짜 필드 더블클릭4) 거래액 필드를 레이블 마크에 드래그앤드랍5) 그래프의 크기 너비 맞추기 선택6) 마크카드에서 자동을 영역으로 변경하지
1. 라인 그래프 1) 새로운 시트 열기 2) 날짜 필드 더블클릭 3) 거래액 필드 더블클릭 4) 행 선반의 합계(거래액) 복제 5) 행 선반의 오른쪽 합계(거래액)의 ▼ 클릭 6) 퀵 테이블 계산에서 누계 선택 아래의 이미지에서 위 그래프는 연도별 그래프이며
2. 도넛 차트 임시계산(인라인 계산): 열/행 선반에서 직접 계산하는 방법 열/행 선반에서 빈 칸을 더블클릭하게 되면 아래의 이미지와 같이 입력창이 뜬다. 만약 열 선반을 더블클릭하여 입력창에 0을 입력하면 아래의 이미지와 같이 뷰에 0이 생기는 것을 확인할 수
s
대시보드는 여러 시각화 요소를 조합하여 한 화면에 나타내어 정보를 보기 쉽고 이해하기 쉽게 만드는 데 사용된다. 대시보드를 효과적으로 구성하려면 사용자의 요구에 맞게 그래픽 요소를 배치하고, 시각화의 일관성과 직관성을 유지하면서 필요한 정보를 전달해야 한다.대시보드는
1) Tableau의 시트탭에서 새 대시보드 클릭
대시보드 동작 기능을 사용하면 태블로 대시보드에서 상호작용이 가능해진다.첫번째 동작 - 대시보드의 동작을 이용한 필터:사용자가 대시보드에서 특정 항목을 선택하면, 해당 선택이 다른 그래프나 테이블 등에 영향을 미치도록 설정할 수 있다. 예를 들어, 사용자가 2017년
대시보드에서 각각의 그래프에 마우스오버를 하면 데이터와 관련된 내용이 상자안에 뜨는 것을 확인할 수 있다. 이 부분을 도구 설명이라고 한다.도구 설명은 다듬는 것을 잘 놓치는 부분이다. 해당 도구 설명을 보면날짜의 월, 운영형태별(1), 날짜의 연도, 거래액(조 원)의
태블로 대시보드 레이아웃에는 바둑판식과 부동이 있다. 시트를 배치하는 방식이라고 생각하면 된다. 바둑판씩은 서로 시트들이 겹치치 않는 방식으로 작동한다. 태블로에서는 별도로 설정을 하지 않을 경우, 레이아웃이 서로 겹치치 않도록 바둑판식 레이아웃을 사용하고 있다.
여러 개의 데이터셋을 다룰 때 관계와 조인은 매우 중요한 기능이다. 이들을 사용하여 데이터셋 간의 관계를 설정하고 필요한 정보를 효과적으로 결합할 수 있다.관계: 관계는 두 개 이상의 데이터 테이블 간의 연결을 정의한다. 이 관계를 설정함으로써 두 테이블 사이의 데이터
1) '판매매체별' 테이블을 가져와 화면에 올리기2) 에러가 나는 관계선 클릭3) 필드 추가 클릭하여 조인할 컬럼 아래의 이미지와 동일하게 선택운영형태별 그래프:1) 새로운 시트 만들기사이드바를 보면 원래 사용하고 있던 '운영형태별' 외에도 '취급상품범위별'과 '판매매
루커 스튜디오(Looker Studio)는 기존 구글 데이터 스튜디오이다.루커 스튜디오의 장점:쉽고 빠른 데이터 소스 연결 / 특히 구글 제품일 때편리한 공유, 공동작업편리한 리포팅단점을 희석하는 강력한 장점: 무료여기를 클릭하면 Looker Studio를 무료로 사용
캔버스 위에 표를 표시할 수 있다. 표 외에도 그래프나 차트 같은 다른 요소들 또한 캔버스 위에 모두 표시할 수 있다.표나 차트를 선택하게 되면 오른쪽의 속성패널이 표시된다.속성패널은 두가지의 기능을 할 수 있다. 첫번째는 설정 영역에서는 표나 그래프에서 표시될 데이터
1) 툴바에서 차트 추가 클릭하여 표 선택루커 스튜디오는 아래 이미지와 같이 원하는 위치에 차트를 추가할 수 있다.2) 원하는 위치에 클릭Looker Studio에서는 기본적으로 '상품군별'과 그 안에 있는 데이터의 갯수를 가져와서 기본 형태의 표를 만들어준다.오른쪽
표를 추가할 때 툴바의 차트 추가 메뉴를 이용했지만 이번에는 데이터 패널에서 진행을 해보자. 오른쪽 데이터 패널에서 '상품군별(1)' 필드를 왼쪽 캔버스에 드래그 앤 드랍하자. 아래의 이미지처럼 상품군별 데이터들이 표에 표현된다. 이번엔 '거래액' 필드를 왼쪽 캔버
설정 패널 클릭필터 > 표 필터 > 필터 추가 클릭Looker Studio에서의 필터는 해당 표나 그래프에서 어떤 값을 보여줄 것인지 혹은 어떤 값을 보여주지 않을 것인지를 결정한다.하이라이트는 조건부 서식을 통해서 원하는 필드를 강조하는 방식이였지만 필터는 원하는 값
Tableau에서는 피벗 테이블을 생성하기 위해 행과 열 선반에 데이터 필드를 넣고, 생성된 테이블의 집계 값을 표시하게 되면 그게 바로 피벗 테이블의 형태이다.피벗 테이블은 행과 열 둘 다 측정기준이 있어야한다. 하지만 루커 스튜디오에서는 속성 패널에서 보듯이 측정기
상단 툴바에서 차트 추가 클릭원형 차트 선택캔버스 위에 추가Looker Studio에서는 자동으로 측정기준과 측정항목을 가져와서 파이차트, 루커 스튜디오로는 원형 차트를 생성한다.측정항목을 '거래액'으로 변경하니 파이차트에 거래액이 추가되며 카테고리별 거래액 크기순대로
루커 스튜디오에서는 막대 그래프를 열 차트라고 부른다.상단 툴바에서 차트 추가 클릭막대 영역에 6가지 형태의 막대 차트를 제공하는 것을 볼 수 있다.루커 스튜디오에서는 기본적으로 제공하는 그래프의 형태를 파악하고 필요한 그래프에 맞춰서 값을 빠르게 설정하는 방식으로 그
상단 툴바에서 차트 추가 클릭하여 열 차트 선택측정기준은 '상품군별(1)' 그대로 두고, 측정항목을 '거래액'으로 변경하자.속성 패널 > 스타일 > 데이터 라벨데이터 라벨 표시를 활성화하면 각각의 거래액 크기를 한눈에 확인할 수 있다.스크롤을 아래로 내려서 그리드 영역
데이터패널에서 날짜 필드를 캔버스에 드래그 앤 드랍 태블로에서는 날짜가 문자열이면 날짜 형식으로 바꾸기 위해 아래의 코드를 사용하였다.
1) 상단 툴바에서 차트 추가 클릭2) 시계열 차트 선택하여 캔버스 클릭3) 속성패널 > 설정 > 측정항목에서 'Record Count'를 '거래액(단위: 조원)'으로 변경현재 데이터는 월 단위 데이터인데 시계열 그래프의 x축은 년 단위로 설정되어있어서 위의 그래프처럼
1) 상단 툴바에서 차트 추가 클릭2) 시계열 차트 선택하여 캔버스에 두기3) 시계열 차트의 속성 패널 > 설정 > 측정항목에서 'Record Count'를 거래액(단위: 조원)으로 변경4) 측정기준에서 드릴다운 활성화5) '날짜' 필드 제거6) 시계열 그래프의 아래
비즈니스는 측정할 수 있어야한다.비즈니스 의사결정에 따라서 액션을 취하면 취한 액션에 따라서 어떤 결과가 나오는지를 볼 것이다. 예를 들어, 이벤트를 실행했는데 반응이 좋았다가 아닌 평소보다 몇 명이 더 샀는지 혹은 주문건이 얼마나 늘어났는지 설명할 수 있어야한다.측정
ㄴㅇ
1) 프로젝트 ID(zerobase-olist-416107) 오른쪽 점 3개 클릭2) 데이터 세트 만들기 선택3) 데이터세트 ID 입력4) 위치 유형으로 리전 선택5) 리전으로 asia-northeast3(서울) 선택6) 데이터세트 만들기 버튼 클릭7) 페이지 하단의
큰 지표부터 작은 지표로 점차 쪼개 나가는 것이 중요하다.우리의 가계부도 똑같다. 예를 들어, 이번달 가계부를 썼는데 돈을 많이 쓴거 같다. 그럼 돈을 많이 썼다는 결과를 가지고 외식, 쇼핑 등으로 접근을 하는게 아닌 큰 단위에서 접근하는게 효과적이다.지출이 많다면 고
1. 이커머스 테이블 정보 매출은 비즈니스 지표 중에서 가장 큰 지표라고 생각할 수 있다. 따라서 매출은 '판매 금액 총합'으로 구할 수 있다. 매출에는 '주문 수'와 '건당 주문 금액'을 구해야한다. '주문 수'는 '주문 건수 세기'라고 생각하면 되며 쉽게 말해
1. BigQuery 날짜 DATE()는 년, 월, 일을 가지고 있는 유형이다. 예를 들어, 일자별 지표로 나타낸다면 DATE를 사용하면 된다. DATETIME()은 DATE의 년, 월, 일과 시간을 나타내는 유형이다. TIMESTAMP()는 DATETIME과 시
2. 유용한 함수 2.1 EXCEPT() > 필요 없는 컬럼 빼고 테이블 데이터 불러오기 except() 함수 안쓰는 경우: except() 함수 쓰는 경우: 2.2 REPLACE() > 불러올 때 간단하게 바꾸기  데이터 패널에서 Ord Amt 더블클릭2) Ord Dte 더블클릭3) 열 선반에서 '년(Ord Date)' ▼ 클릭4) 월(2015년 5월) 선택5) 행 선반에서 '합계(Ord Amt)' ▼ 클릭6) 퀵 테이블 계산 클릭하여 누계 선택7) Ctrl + 합계(Ord
1) 데이터 패널에서 Ord Amt 더블클릭2) Ord Date 더블클릭3) 열 선반에서 '년(Ord Date)' 2번 드릴다운4) '분기(Ord Date)' 제거5) 데이터 패널에서 'Ord Date'를 필터에 드래그 앤 드랍6) 연도/월 선택7) 다음 클릭8) 전체
1. 월 매출의 증감률 1) 데이터 패널에서 Ord Amt 더블클릭 2) Ord Date 더블클릭 3) 열 선반에서 '년(Ord Date)' 2번 드릴다운 4) '분기(Ord Date)' 제거 5) 데이터 패널에서 'Ord Date'를 필터에 드래그 앤 드랍 6)
1. 차이 및 비율차이 계산 방식 옵션 1: 행 선반 필드 더블클릭 옵션 2: 행 선반 필드 ▼ 클릭하여 선반에서 편집 선택 위의 2가지 옵션을 통해 해당 필드가 어떠한 방식으로 계산 되었는지 직접 확인할 수 있다. > 차이 (Running Total) > 비
1) 데이터 패널에서 'Ord Date' 필드 더블클릭2) 'Ord Amt' 필드 더블클릭3) 툴바에서 행과 열 바꾸기 아이콘 클릭4) 행 선반에서 '년(Ord Date)' 2번 드릴다운5) '분기(Ord Date)' 제거6) 툴바에서 맞춤을 높이 맞추기로 변경7) 데
1. 이동평균(Moving Average) 1) 데이터 패널에서 Ord Amt 더블클릭 2) Ord Date 더블클릭 3) 열 선반에서 '년(Ord Date)' ▼ 클릭 4) 주 번호 선택 업로드중.. > 예시: | 월 | 1월 | 2월 | 3월 | 4월 |
예시:
ㄴㅇ
측정값 카드에 만들어진 YTD 총계를 데이터 패널에 드래그 앤 드랍을 하게 되면 새로운 YTD 총계 필드를 생성할 수 있다. 데이터 패널에서 '계산 1'의 필드 ▼을 클릭하여 편집...을 누르면 아래와 같이 수식을 확인할 수 있다. 계산 1 1의 YTD 성장률은 비
1) YTD 총계와 YTD 성장률 그래프 복제2) 측정값 마크에 있는 필드들 제거3) 마크카드에서 레이블 '합계(Ord Amt)' ▼ 클릭4) 퀵 테이블 계산 클릭5) 전년 대비 성장률 선택6) 데이터 패널에서 'Ord Amt' 필드 더블클릭7) 측정값 카드에서 첫번째
1. 성장률의 평균을 표현하는 방법
매개변수(Parameter) 매개변수는 정해진 값을 동적으로, 상호작용할 수 잇게 해주는 변수이다.
1. 매개변수로 그래프 측정값을 바꾸는 방법 1) 트렌드 그래프 클릭 2) 데이터 패널에서 오른쪽 마우스 클릭 3) 매개변수 만들기... 선택 4) 아래 이미지와 같이 이름, 데이터 유형, 허용 가능한 값 변경 5) 확인 버튼 클릭 6) 위에서 만든 매개변수 'p_
1) 새로운 대시보드 열기2) '요약', '트렌트', '차이2' 그래프 드래그 앤 드랍3) '차이2' 그래프 클릭4) 행 선반의 필드를 데이터 패널의 '지표선택'으로 대체5) 마크카드의 두 필드 또한 '지표선택'으로 대체6) 대시보드로 돌아오기7) 상단의 대시보드 메뉴
1) '트렌드' 그래프 클릭2) 데이터 패널에서 오른쪽 마우스 클릭3) 매개 변수 만들기... 선택4) 매개 변수 이름 입력5) 데이터 유형으로 날짜 선택6) 허용 가능한 값으로 범위 선택7) 통합 문서가 열릴 때로 선택8) 아래 없음을 Ord Date로 변경9) 확인
6. 통합성장률(Compound Annual Growth Rate) Tableau에서는 통합성장률이라고 불리며 원래 용어는 연평균복합성장률 또는 연평균성장률이라고 불린다. CAGR, Compound Annual Growth Rate 예시: 2010년 100 20
1) 데이터 패널에서 'Ord Date' 필드 더블 클릭2) 행 선반에서 '년(Ord Date)' 필드 2번 드릴다운3) 툴바에서 행과 열 바꾸기 아이콘 클릭4) 데이터 패널에서 'Ord Amt' 필드 더블클릭5) 툴방에서 맞춤을 높이 맞추기로 선택6) 데이터 패널에서
1) 툴바에서 테마 및 레이아웃 클릭2) 원하는 테마 선택3) 데이터 패널에서 'ord_amt' 필드를 캔버스에 드래그 앤 드랍4) 사이즈를 조절하여 왼쪽에 배치5) 스코어카드 복제하여 아래와 같이 배열6) 스코어카드 3개 모두 클릭7) 펼치기 클릭8) 가로 선택가로
1) 데이터 패널에서 'ord_amt'를 캔버스에 드래그 앤 드랍2) 방금 생성한 'ord_amt'의 스코어 카드 클릭하여 시계열 차트로 변경3) 툴바에서 컨트롤 추가 클릭4) 드롭다운 목록 선택5) 캔버스 위 클릭6) 컨트롤 필드를 'customer_state'로 변
2. 도시별 차트 1) 툴바에서 차트 추가 클릭 2) 상단의 표 선택 3) 속성패널 설정에서 측정항목을 'ord_amt'로 변경 4) 측정기준은 'customerstate'로 변경, 'customercity' 추가 주별, 도시별 매출 합계를 잘 보여주며, 스코어 카
1. 매개변수를 활용한 대시보드 상호작용 1) 데이터 패널 하단에서 매개변수 추가 선택 2) 아래 이미지와 같이 빈 칸 작성 3) 허용된 값으로 값 목록 선택 4) 저장 버튼 클릭 5) 완료 버튼 클릭 아래 이미지와 같이 'p_지표변경' 매개변수가 정상적으로 생성
1. 기간 컨트롤 적용 1) 툴바에서 컨트롤 추가 클릭 2) 기간 컨트롤 선택하여 캔버스에 올리기 3) 기간 컨트롤 속성 패널에서 자동 기간 선택 4) 고정으로 변경 5) 아래와 같이 시작일과 종료일 선택 6) 적용 버튼 클릭 아래와 같이 하단의 스코어 카드와
1) 메뉴바에서 리소스 클릭2) 추가된 데이터 소스 관리 선택3) 수정 클릭4) 연결 수정 선택5) 스크롤 다운하여 매개변수에서 기간 매개변수 사용 설정 클릭6) 아래의 하이라이트 된 부분처럼 쿼리 변경7) 다시 변경 버튼 클릭8) 적용 버튼 클릭9) 로딩 후 완료 버
방문자 수가 똑같다고 해서 항상 구매도 똑같이 일어나는 것은 아니다. 구매나 정기결제와 같이 중요한 행동까지 이어지는 과정을 차근차근 살펴볼 필요성이 생긴다. 이것을 Funnel 분석, 사용자의 방문부터 구매까지의 과정을 쪼개서 단계별로 보는 것이다.
ㄴ
1. 이동평균 반영할 때의 고려사항
4. 행동으로 전환된 고객의 비율 고객 행동별로 그 행동을 수행한 사용자가 몇명이 되는지 확인해보자. 1) 데이터 페널에서 Active User 더블 클릭 2) New Event Time 더블 클릭 3) 열 선반의 년(New Event Time)의 ▼(내리막 화살표
ㄴ
1) 데이터 패널에서 'Brand' 필드 더블클릭2) 데이터 패널에서 오른쪽 마우스 클릭3) 계산된 필드 만들기... 선택4) 아래와 같이 수식 작성5) 확인 버튼 클릭6) 방금 만든 'count_view' 필드 복제7) 복제한 필드 ▼ 선택8) 편집... 선택9) 아
Looker Studio는 따로 페이지를 설정할 수 있지만, Tableau는 그렇지 않기 때문에 매개변수를 이용하여 페이지를 만들 수 있다.1) 데이터 패널에서 오른쪽 마우스 클릭2) 계산된 필드 만들기... 선택3) 아래와 같이 쿼리 작성 후 완료 버튼 클릭4) 연속
1. 데이터 분석 Flow 1) DB Data 적재 Relationship 이해 ERD 2) SQL, Python Adhoc Analysis EDA Data Transformation 3) BI Visulization Reporting Automation 2.
DataFrame의 컬럼 순서 정렬: sort_values() DataFrame 일부 data drop(삭제) Inplace 파라미터는 DataFrame에 생긴 변동사항을 원본 DataFrame에 최종 반영할 것인지의 여부를 정하는 것으로, False가 디폴트
1. Python Visualization Library 1) matplotlib Python 대표 시각화 라이브러리 기본적 그래프부터 통계, Image 처리까지 2) seaborn Matplotlib 기반의 Adds-on 성격의 라이브러리 간단한 메서드로 다양한
1. Bar Graph 1.1 FacetGrid 1.2 Regplot 추후 사용될 Power BI 버전 호환 문제로 예전 버전 설치더 높은 버전으로 이미 설치되어있다면, 삭제 후에 재설치 필요1) DBeaver 설치하기2) 메뉴에서 윈도우(Window) > 설정(
DB INSERT가 완료된 TABLE HR_Employee_AttritionTable Properties:Data 미리보기:1) 메뉴에서 SQL 편집기 선택2) 새 SQL 편집기 선택Q. TABLE Properties나 Data 미리보기로 조회가 가능하지만, 데이터 전
Data Type에 대해 알아보자.링크텍스트SQL DB - 대소문자에 대한 고민Windows - 구분 X / Linux - 구분 O0: 구분 O (대문자 != 소문자)1: 구분 X (대문자 = 소문자)OS 상관없이 대문자 != 소문자 구분을 위해 VARBINARY로 데
1. Table Create 옵션 1: 테이블 생성 후 데이터 삽입 옵션 2: 테이블 생성하면서 데이터 삽입 2. 테이블 연결 1) hr_cate 테이블에서 상단의 엔티티 관계도 선택 2) hrcate 테이블의 엔티티 관계도에 hrnumber 테이블 드래그 앤
CARTESIAN JOIN
집계된 결과값을 기존 데이터에 추가하여 보여줌합계, 평균, 순위 매기기, 순서 조작 등결과를 보여주되, 결과 건수가 줄어들지 않음SUM, AVG, MIN, MAX, COUNT 집계 함수를 활용하여 특정 컬럼을 기준으로 집계된 결과 산출1) Group By - JobLe
1. Data Analysis Expressions (DAX) 1.1 CALCULATE - Filter Functions > e.g. 1) 홈 리본에서 새 측정값 선택 2) 아래와 같이 식 입력 *다음 줄로 내릴려면 Shift+Enter 클릭 3) Enter
과거 판매 데이터와 현재 잘 팔리는 활성 재고가 포함된 데이터셋재고에는 많은 상품들이 있지만, 실제로 판매되는 상품은 많지 않으며, 심지어는 1년에 1번 가량씩 판매가 되기도 함.분석 목표: 악성 재고 현황을 파악 및 최소화 플랜 수립우리가 고민해볼 수 있는 포인트Hi
조건문을 단일/다중으로 활용하여 조건에 따른 결과값을 새로운 컬럼 생성조건 대상 컬럼이 1개일 때조건값(when_value)이 명확할 때예시:조건 대상 컬럼이 복수일 때조건값(when_value)이 명확하지 않을 때여러 복합적인 조건을 걸고 싶을 때예시:
Query를 구성하다보면 점점 복잡해진다. 구조적 가시성과 Query 효율성을 위해 사용할 수 있는 방법은 다음과 같다.SubqueryWITH절Original_Table에 사용하지 않을 컬럼이 너무 많을 경우 연상량을 줄이기 위하여Subquery 내 중간 연산이 필요할
1. SUMX > 2. SWITCH 값 목록에 대해 식을 평가하고 가능한 여러 결과 식 중 하나를 반환한다. 이 함수는 중첩된 IF 문이 여러 개 없는 것을 방지하는데 사용할 수 있다. > 3. SELECTEDVALUE columnName의 컨텍스트가 하나의
1) 데이터 수집데이터 엔지니어의 영역수집된 데이터를 분석가가 사용2) 데이터 처리데이터 추출, 필터링, 그룹화, 조인 등이상치 제거, 분포 변환, 표준화, 카데고리화 등3) 데이터 분석지표 개발/산출EDA (탐색적 데이터 분석)통계 분석머신러닝 등4) 리포팅시각화대시
Spark는 범용적인 목적을 지닌 분산 클러스터 컴퓨팅 오픈소스 프레임워크이다.분산 클러스트는 시스템의 전반적인 성능을 향상시키기 위해 계산 부하량을 여러 노드에서 분담하여 병렬 처리하도록 구성하는 방식이다.여러 컴퓨터의 자원을 모아 하나의 컴퓨터처럼 사용하는 전반적인
1) Kaggle 로그인2) 오른쪽 상단의 프로필 클릭3) Settings 클릭4) 페이지 아래로 내리기5) API 섹션에서 Create New Token 버튼 클릭6) Continue 버튼 클릭7) Google Colab에 아래와 같이 쿼리 작성8) Choose fi
1. PySpark로 데이터 읽어오기 csv 포맷 말고도 JSON, Parquet, Avro, ORC, JDBC 등 다양한 파일 형식 읽기를 지원함 header: 열 이름이 데이터 내에 포함되어 있으면 True inferschema: 스키마 자동 설정 (=True)
1. PySpark DataFrame (CSV vs. Parquet) 1.1 csv와 parquet 파일 최적화 비교 1.2 Transformation만 한다면 어떨까? 1.3 Action이 일어나는 경우
사용자가 SQL이나 DataFrame으로 로직을 작성Spark가 실제 코드를 실행하기 전에 그 로직을 기본 실행 계획으로 컴파일Spark SQL 사용을 위해 DataFrame을 테이블이나 뷰로 등록 필요Spark SQL에서 직접 쿼리를 수행하는 것과 DataFrame
several built-in standard functions to work with DataFrame and SQL queries1) select특정 컬럼을 선택하기 위한 함수2) count데이터프레임의 행 갯수를 연산3) when데이터프레임에서 if문과 같은 조건
4. 다른 값으로 결측치 대체 Category는 CategoryName의 ID로 보인다. Category는 있는데, CategoryName이 없는 경우가 있을까? Category가 "1022200"이면 CategoryName은 "100% AGAVE TEQUILA"
SQL Query를 사용하기 위해서는 temp view로 데이터프레임을 지정해줘야한다.DataFrame API와 SQL Query 모두 count라는 함수를 쓰지만 두 함수의 차이점이 있다.DataFrame API: Action 함수이므로 항상 return 값이 Dat
toPandas: PySpark DataFrame 객체를 Pandas DataFrame 객체로 변환Pandas로 변환하는 이유:시각화를 하기 위해서는 모든 데이터를 한번에 로드해야함대부분의 시각화 라이브러리 지원 가능Pyspark는 분산 처리 기반으로 시각화에는 적합하
Meta data (메타 데이터)는 데이터에 관한 구조화된 데이터로, 다른 데이터를 설명해 주는 데이터이다.부가 정보를 추가하기 위해 데이터에 따라가는 정보다.예를 들어, 파일의 저장 날짜, 종류, 태그 등왼쪽 테이블:모든 정보 보존 가능기존 데이터의 row가 많을수록
PySpark의 연산 속도가 빠른 이유는 데이터들을 각각의 partition에 넣어서 분산 처리를 하기 때문이다.PySpark를 통해 분산이 되어있는 데이터들을 csv 파일로 저장을 하게되면 분산이 되어있는 데이터마다 각각의 csv 파일로 저장이 된다. 이는 여려개의
SQL 개발과 관리, 데이터베이스 설계, 생성 그리고 유지를 위한 단일 개발 통합 환경을 제공하는 비주얼 데이터베이스 설계 도구공식 MySQL 관리 도구1) MySQL Workbench 실행2) MySQL Connections 아래 Local instance 3306
1) Data Definition Language (DDL)데이터를 정의할 때 사용하는 언어테이블을 만드는 CREATE, 테이블을 제거하는 DROP 등2) Data Manipulation Language (DML)데이터베이스에 데이터를 저장할 때 사용하는 언어새로운 데
장점:MYSQL은 temporary table 을 session/connection이 종료되었을 때 자동으로 삭제쿼리의 재사용이 필요한 상황에서 사용하는 게 사용하는 입장에선 편리단점:메모리를 차지한다어떤 테이블인지 바로 파악이 어렵다
태블로 대시보드를 발행할 때, 외부 데이터를 가져오는 방법에는 라이브와 추출 두 가지가 있다.1) 라이브라이브 설정을 사용하면, 대시보드가 외부 데이터 소스에 실시간으로 연결된다. 대시보드를 열 때마다 최신 데이터를 바로 가져와서 보여준다.2) 추출추출 설정을 선택하면
1) RUNNING_SUM: 누계 합계2) RUNNING_AVG: 누계 평균3) RUNNING_COUNT: 누계 카운트4) RUNNING_MAX: 누계 최대값5) RUNNING_MIN: 누계 최소값전월 대비 매출 성장 - LOOKUP
1. 전월 대비 매출 성장 - LOOKUP
1) 데이터 패널에서 Item Description 필드를 행 선반으로 드래그 앤 드랍2) Sale Dollars 필드를 레이블 마크로 드래그 앤 드랍3) City 필드를 필터로 드래그 앤 드랍4) City 중 Mount Vernon 선택 후 확인 클릭5) Sale D
1. 카테고리 매출 순위 TOP 20 1.1 히트맵 1) 데이터 패널에서 Category Name 필드를 레이블 마크로 드래그 앤 드랍 2) Sale Dollars 필드를 크기 마크로 드래그 앤 드랍 3) 마크카드에 있는 합계(Sale Dollars) 필드를 레이블
1. 도구 설명에 시트 삽입 1) 데이터 패널에서 Item Description 필드를 열 선반에 드래그 앤 드랍 2) Sale Dollars 필드를 행 선반에 드래그 앤 드랍 3) 행 선반의 필드를 색상 마크에 드래그 앤 드랍 4) 열 선반에서 Item Descri
1. 도시별 스토어별 아이템별 정보 상세 1) 데이터 패널에서 City 필드를 필터로 드래그 앤 드랍 2) Store Name, Item Description 필드를 행 선반으로 드래그 앤 드랍 3) Sale Dollars 필드를 행 선반으로 드래그 앤 드랍 4) 행
1) 데이터 패널에서 도시 필드의 아래 삼각형 클릭2) 지리적 역할 선택3) 주/시/도 선택4) 도시 필드를 행 선반에 드래그 앤 드랍5) 표현 방식에서 맵 선택6) 데이터 패널에서 총 매출 필드를 색상 마크에 드래그 앤 드랍7) 데이터 패널에서 아래 삼각형 클릭8)