주문 데이터 분석과 지표
- 분석가들은 지표와 친해야 함 ▷ 구체적인 목표를 세우기 위해, 성공 여부 판단, 우선순위/개선사항 확인
- 큰 지표에서 작은 지표로 접근할 수 있는 단위로 쪼개기
- 분석가들은 쪼개져있는 데이터셋 중 필요한 데이터를 join하여 사용하는 경우가 대부분
- 데이터셋을 나누는 이유?
- 한 데이터셋에 모아놓으면 >> 일부 데이터를 수정할 경우 전체 데이터셋을 업데이트해야 함
- 데이터를 나눠놓으면 ▷ 자주 바뀌지 않을 정보와 자주 바뀔 정보를 분리 >> 데이터 업데이트에 효율적
사용할 데이터셋
Brazilian E-Commerce Public Dataset by Olist (출처 : kaggle)
Data Warehouse
참고(추가 설명)
- 조직 내 다양한 이질적인 소스의 정보를 집계하고 저장하는 시스템
- 최종 사용자가 서로 다른 소스의 정보를 통합 및 분석할 수 있게 함으로써 의사 결정을 도모할 수 있도록 설계됨
- 목표는 명백히 비즈니스 지향적
- 분석용 데이터 중앙 창고
- 대표적인 예시) amazon REDSHIFT, Google BigQuery
Big Query
- GCP(Google Cloud Platform) 제품군
- 구글에서 제공하는 클라우드 기반 데이터 웨어하우스
Big Query 준비
Google Cloud - 왼쪽 상단 햄버거 메뉴 - Big Query 선택
프로젝트 만들기 - 새 프로젝트 생성
- 프로젝트 이름 설정
프로젝트 ID : 빅쿼리에서 프로젝트를 고유하게 인식할 때 사용되는 고유번호
📝 프로젝트 이름은 중복 가능 / 프로젝트 ID는 중복 불가능
데이터셋 만들기
데이터셋 이름 설정 & 리전 선택
데이터 세트로 이동하여 테이블 만들기 선택
- 소스 :
업로드 / 테이블 이름 설정 / 스키마 : 자동 감지 선택
스키마 직접 작성도 가능