데이터 준비 (실습 및 과제)
- solvesql 플레이그라운드 > 데이터 베이스
UK E-Commerce Orders
월별 클래식 주문 - 클래식 리텐션(고객 수) 구하기
데이터 살펴보기
고객이 첫 주문을 한 월을 first_order_month
컬럼에 출력하고,
첫 주문으로부터 1개월 후, 2개월 후, 11개월 후에도 주문하는 고객 수를
각각 계산해 출력하는 쿼리 작성해보기
month0
- 해당 월에 처음 주문한 고객의 수month1
- 해당 월에 처음 주문하고, 그 다음 달에도 주문한 고객의 수month2 ~ month11
- 해당 월에 처음 주문하고, 2~11개월 뒤에도 주문한 고객의 수쿼리 구조 생각해보기
Date
컬럼의 데이터들이 월 / 일 / 년
의 문자열로 작성되어 있었고,str_to_date()
함수를 통해 날짜 데이터로 변환했다.# str_to_date(문자열, 날짜 형식) : 문자열 데이터 → 날짜 데이터 변환
# 날짜 형식에는 문자열에 입력된 형식을 나타내줘야 한다.
# 아래 예에서 %m/%d/%Y는 입력 문자열의 형식이 "월/일/연도"임을 나타냄.
SELECT STR_TO_DATE('01/31/2024', '%m/%d/%Y');
결과: '2024-01-31'
1. 고객이 첫 주문을 한 데이터를 조회하는 테이블 생성 ( + 날짜 형식 변환)
with firsts as ( select CustomerNo f_cn , TransactionNo f_tn , str_to_date(`Date`, '%m/%d/%Y') f_d , min(str_to_date(`Date`, '%m/%d/%Y')) over (partition by CustomerNo order by str_to_date(`Date`, '%m/%d/%Y')) first_order_date from SALES_TRANSACTION st where CustomerNo is not NULL ) select * from firsts
2. 첫 주문 데이터들을 월별로 묶어서 조회하는 테이블 생성
with firsts as ( select CustomerNo f_cn , TransactionNo f_tn , str_to_date(`Date`, '%m/%d/%Y') f_d , min(str_to_date(`Date`, '%m/%d/%Y')) over (partition by CustomerNo order by str_to_date(`Date`, '%m/%d/%Y')) first_order_date from SALES_TRANSACTION st where CustomerNo is not NULL ), monthly as ( select f_cn , f_tn , f_d , first_order_date , date_format(f_d, '%Y-%m') order_month , date_format(first_order_date, '%Y-%m') first_order_month from firsts ) select * from monthly
3. 각 월별 데이터들을 그룹화하여 1개월 단위로 해당하는 고유한 고객 수를 조회하기
with firsts as ( select CustomerNo f_cn , TransactionNo f_tn , str_to_date(`Date`, '%m/%d/%Y') f_d , min(str_to_date(`Date`, '%m/%d/%Y')) over (partition by CustomerNo order by str_to_date(`Date`, '%m/%d/%Y')) first_order_date from SALES_TRANSACTION st where CustomerNo is not NULL ), monthly as ( select f_cn , f_tn , f_d , first_order_date , date_format(f_d, '%Y-%m') order_month , date_format(first_order_date, '%Y-%m') first_order_month from firsts ) select first_order_month , count(distinct f_cn) month0 , count(distinct case when date_format(date_add(first_order_date, interval 1 month), '%Y-%m') = order_month then f_cn else null end) month1 , count(distinct case when date_format(date_add(first_order_date, interval 2 month), '%Y-%m') = order_month then f_cn else null end) month2 , count(distinct case when date_format(date_add(first_order_date, interval 3 month), '%Y-%m') = order_month then f_cn else null end) month3 , count(distinct case when date_format(date_add(first_order_date, interval 4 month), '%Y-%m') = order_month then f_cn else null end) month4 , count(distinct case when date_format(date_add(first_order_date, interval 5 month), '%Y-%m') = order_month then f_cn else null end) month5 , count(distinct case when date_format(date_add(first_order_date, interval 6 month), '%Y-%m') = order_month then f_cn else null end) month6 , count(distinct case when date_format(date_add(first_order_date, interval 7 month), '%Y-%m') = order_month then f_cn else null end) month7 , count(distinct case when date_format(date_add(first_order_date, interval 8 month), '%Y-%m') = order_month then f_cn else null end) month8 , count(distinct case when date_format(date_add(first_order_date, interval 9 month), '%Y-%m') = order_month then f_cn else null end) month9 , count(distinct case when date_format(date_add(first_order_date, interval 10 month), '%Y-%m') = order_month then f_cn else null end) month10 , count(distinct case when date_format(date_add(first_order_date, interval 11 month), '%Y-%m') = order_month then f_cn else null end) month11 from monthly group by first_order_month order by first_order_month
목표: Facebook SQL 인터뷰에 나온 활성 유저의 리텐션을 SQL로 계산
결과: 사이트에서 문제를 풀고 정답 SQL 코드를 제출
문제 :
제출 :
쿼리 :
# 6월과 7월 각각 존재하는 user_id 조회하는 CTE 생성
WITH june AS (
SELECT DISTINCT user_id
FROM user_actions
WHERE event_date BETWEEN '2022-06-01' AND '2022-06-30'
),
july AS (
SELECT DISTINCT user_id
FROM user_actions
WHERE event_date BETWEEN '2022-07-01' AND '2022-07-31'
)
# 두 테이블에 모두 존재하는 user_id의 수 (7월 활성유저) 조회
SELECT
7 AS mth,
COUNT(DISTINCT jl.user_id) AS monthly_active_users
FROM
june jn INNER JOIN july jl
ON jn.user_id = jl.user_id
목표: 세션에서 코호트 리텐션 (고객의 수)를 구한 것을 기반으로 재구매 클래식 리텐션을 비율로 구하기
결과: 월별 재구매 리텐션을 백분율 (소수점 두번째짜리까지)로 구해 SQL 코드를 제출
위 실습에서 진행한 데이터에 첫 달 구매 고객 수를 각 월별로 나누어 비율을 계산해볼 수 있다.
with firsts as ( select CustomerNo f_cn , TransactionNo f_tn , str_to_date(`Date`, '%m/%d/%Y') f_d , min(str_to_date(`Date`, '%m/%d/%Y')) over (partition by CustomerNo order by str_to_date(`Date`, '%m/%d/%Y')) first_order_date from SALES_TRANSACTION st where CustomerNo is not NULL ), monthly as ( select f_cn , f_tn , f_d , first_order_date , date_format(f_d, '%Y-%m') order_month , date_format(first_order_date, '%Y-%m') first_order_month from firsts ) select first_order_month , round((count(distinct f_cn) / count(distinct f_cn)) * 100, 2) month0 , round((count(distinct case when date_format(date_add(first_order_date, interval 1 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month1 , round((count(distinct case when date_format(date_add(first_order_date, interval 2 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month2 , round((count(distinct case when date_format(date_add(first_order_date, interval 3 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month3 , round((count(distinct case when date_format(date_add(first_order_date, interval 4 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month4 , round((count(distinct case when date_format(date_add(first_order_date, interval 5 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month5 , round((count(distinct case when date_format(date_add(first_order_date, interval 6 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month6 , round((count(distinct case when date_format(date_add(first_order_date, interval 7 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month7 , round((count(distinct case when date_format(date_add(first_order_date, interval 8 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month8 , round((count(distinct case when date_format(date_add(first_order_date, interval 9 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month9 , round((count(distinct case when date_format(date_add(first_order_date, interval 10 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month10 , round((count(distinct case when date_format(date_add(first_order_date, interval 11 month), '%Y-%m') = order_month then f_cn else null end) / count(distinct f_cn)) * 100, 2) month11 from monthly group by first_order_month order by first_order_month
목표: 각자 관심있는 웹/앱 서비스를 3개 이상 선택하여 해당 서비스의 예상 리텐션 정의, 종류, 그리고 그렇게 생각한 이유를 서술형으로 작성
결과:
예시 )
서비스 : 슬랙 (Slack)
리텐션 정의
:
이유
:리텐션 종류
:
이유
:리텐션 측정 지표
:
서비스 : 뉴닉 (NEWNEEK)
리텐션 정의
:
이유
:리텐션 종류
:
주간 리텐션 (Weekly Retention)
이유
:월간 리텐션 (Monthly Retention)
이유
:리텐션 측정 지표
: