chap1.시장 연월별 전체 거래액 대시보드 Tableau 링크

과제 - (집계/전처리) 데이터셋 체크, 지표설계 - (시각화) 인사이트
BI Tool - Tableau, Looker Studio, Power BI
BI ( Business intelligence )
= 비즈니스 의사결정을 위한 전 과정
BI Tool
< 통계청 공식 데이터로 온라인 쇼핑 동향 파악하기 >
- Role : 이커머스 분야 BA
- 진행
- 전처리
- 태블로/루커스튜디오
- 동향 파악
why “시장”?
데이터셋
데이터셋 재구조화
pd.melt()pd.melt() - wide → long
pd.pivot_table()- long → wide. pivot과 달리 집계도 함 (즉, value값이 여러 개여도 O)
pd.melt(id_vars = None, # 유지할 컬럼
value_vars = None, # 변환할 컬럼
var_name = None, # 변환 후 생성되는 컬럼 이름
value_name = 'value') # 변환 후 생성되는 값 컬럼의 이름
pd.pivot_table(values = None, # 집계값
index = None, # 집계기준(행)
columns = None, # 집계기준(열)
aggfunc = 'mean') # 집계방식 - value마다 다른 집계 할때 {'a':'sum', 'b':'mean'}
pd.pivot() - long → wide. 배치만 함. (value값이 여러 개면 error)
pd.concat()
axis=1 - 가로로 붙여, 행 개수 다를 경우 빈 칸은 NaN으로
axis=0 - 세로로 붙여 (default), 컬럼명이 다르면 각각 생성 후 NaN 값 됨
encoding = 'cp949'|'utf-8'|'utf-8-sig'# [2, 4, 6, 8, ... , 20]
#1
test= []
for i in range(1, 11):
i = i * 2
print(i)
test.append(i)
#2 - list comprehension
[i * 2 for i in range(1, 11)]set([i % 2 for i in range(1, 11)])
-> {0, 1}[i for i in ragne(0, 20)]
-> [-,1, 2, 3, ..., 18, 19]
test = []
fori in range(0, 20):
if i % 2 == 1:
test.append(i)
-> test = [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]
# range안의 i 중 if문을 만족시키는 i
[i for i in range(0, 20) if i % 2 == 1]
-> [1, 3, 5, 7, 9, 11, 13, 15, 17, 19]반복업무 줄이기
import os os.getcwd() - 파이썬 실행되고 있는 현재 경로 os.listdir('전체경로'|'.상대경로') or os.listdir() - 경로에 있는 파일 os.mkdir('결과물 저장할 경로') - directory 만들기 os.path.join() - 파라미터로 경로,파일 넣으면 파일의 경로 반환대시보드 만들기
차원
데이터 필드의 회색 보조선 위쪽 데이터들
측정값
데이터 필드의 회색 보조선 아래쪽 데이터들
사이드 바 - 계산된 필드 만들기
DATEPARSE(’날짜형식’, ‘바꿀 문자열’)
‘바꿀 문자열’ ← [컬럼명]
로캘을 기반으로 해석, 표시
문자열 → 날짜
| 날짜 부분 | 기호 | 예시 문자열 | 예시 형식 |
|---|---|---|---|
| 연도 | y | 97 | yy |
| 2017 | yyyy | ||
| 월 | M | 9 | M |
| 09 | MM | ||
| Sep | MMM | ||
| September | MMMM | ||
| 일 | d | 1 | d |
| 01 | dd | ||
| 시(1-12) | h | 1 | h |
| 시(0-23) | H | 16 | HH |
대시보드 만들기
대시보드 = 여러 차트를 한 판에 나타내
목적, 사용자, 콘텐츠 고려
기본에 충실
필터
하이라이트
인터랙티브 대시보드
관계와 조인
(데이터 스튜디오)
쉽고 빠른 데이터 소스 연결 especially 구글제품일때
편리한 공유, 공동작업
편리한 리포팅
무료
배치가 자유로움
시각화 형태가 준비되어 있음
측정기준과 측정항목
매개변수
시계열
PARSE_DATE('','') PARSE_DATE('날짜형식', '바꿀 문자열') PARSE_DATETIME('%d/%m/%Y', DateTime)
| 날짜 부분 | 형식 | 예시 문자열 |
|---|---|---|
| 연도 | %y | 97 |
| %Y | 2017 | |
| 월 | %m | 09 |
| %b | Sep | |
| %B | September | |
| 일 | %e | 1 |
| %d | 01 | |
| 시(1-12) | h | 1 |
| 시(0-23) | H | 16 |