이번 블로깅 주제는 특정 기업의 데이터 수집 방법과 join을 활용한 예제였는데 저번주에 이어 또 한번 잘 쓰여진 글이라고 해주셔서 감사하기도 하고 한편으로는 부담도 느껴졌다. 부담 느끼는 만큼 다음번 블로그 글도 잘 작성해야겠다고 마음먹게 되었다.
과제였던 case_id, timestamp, score로 이루어진 빅쿼리 테이블에서 case_id 별로 가장 최근의 평점을 불러오는 것에 대한 내용을 진행하였는데 내가 생각한 selfjoin을 활용하는 방법이 맞았다. 과제 진행에서 많이 어려움을 느꼈었는데 다른 분들도 많이 어려워하셨던 것 같다.
첫번째 프로젝트는 이커머스 업체인 olist의 배송기간을 평가하기 위한 지표를 선정하고 지표를 구하여 시각화 하는 프로젝트다. 2명씩 페어를 지어서 서로 자신의 결과물을 설명하고 피드백을 진행하게 될 것 같다.
프로젝트의 요구사항은 배송 성과를 관리하고 근거를 설명하기 위한 KPI 정의, 해당 KPI를 계산하는데 필요한 테이블 식별, 해당 KPI의 주간 성과 계산, KPI의 시각화이다.
조건은 2017년 한 해의 데이터를 사용할 것, KPI는 일단위(day)로 측정할 것, 결과는 오름차순으로 정렬할 것, 이렇게 총 세가지이다.
사용될 Syntax로는 TIMESTAMP_TRUNC
, FORMAT_TIMESTAMP
, TIMESTAMP_DIFF
, CAST
, AVG
등이 있을 것이라고 하셨다. 위의 Syntax를 최대한 모두 활용하여 Query를 짜도록 해야할 것 같다. 다만 익숙하지 않고 처음보는 Syntax가 대부분이어서 많이 알아보고 공부해야 할 것 같다.