[ 컬럼 이해 ] (kaggle 사이트에서의 설명을 참고)
/payment_sequential/ : 한 주문에 대하여 지불 수단이 두 개 이상일 경우, 지불 수단의 순서 (payment_sequential이 1이 아닌 경우의 order_id로 데이터 확인)
/payment_installments/ : 할부 개월
/review_creation_date/ : 만족도 조사가 고객에게 전송된 날짜
/customer_id/ : 주문 키
/timestamp/ : 날짜 + 시간 (!=time)
/order_approved_at/ : 지불 승인 타임 스탬프
/order_delivered_carrier_date/ : 상품이 물류사에 전달된 타임 스탬프
/order_estimated_delivery_date/ : 고객에게 통보된 예상 배송일
# WHY? (분석 방향 선정 사유)
: 재구매율이 낮은 E-commerce이므로, 선택과 집중이 필요한 상황으로 사료됨. 따라서 상위 카테고리를 파악하여 해당 카테고리에 집중하며, 하위 카테고리를 파악하여 해당 카테고리에 대한 문제점을 깊게 탐구 혹은 판매 중단이라는 과감한 시도 또한 고려해볼 수 있다고 여겨짐
1) diagram을 이용하여 카테고리와 평점을 확인할 수 있도록 join할 테이블 확인
2) 카테고리를 인지하기 쉽도록 카테고리의 영문명을 추출하며, 리뷰의 평점 평균을 함께 추출하여 평균 평점을 바탕으로 내림차순 정렬
3) 전체 카테고리의 평점 평균과 비교. 전체 평점 평균은 4.0878점이라는 것을 알 수 있음
4) 카테고리별 평점 평균과 전체 평점 평균을 비교하여 평점이 높은 상위 카테고리를 알아봄
5) 추출 결과 확인
분석 결과 1 : 전체 평점 평균보다 높은 카테고리 목록
- 이름 없는 카테고리 1개를 포함한 총 72개의 카테고리 중, 전체 평점 평균보다 높은 34개의 카테고리가 무엇인지 알 수 있음
분석 결과 2 : 평점 최하위 카테고리 = security_and_services(2.5점)
- 바로 이전 카테고리와 점수의 차이 또한 큰 편. 확연히 만족도가 떨어지는 카테고리임을 알 수 있음
# WHY? (분석 방향 선정 사유)
: 주문량이 높은 시간대를 파악하고, 해당 시간대에서 주문량이 높은 제품 또한 알아보고자 함. 이를 바탕으로 마케팅 전략을 세울 수 있을 것으로 사료됨
1) diagram을 이용하여 카테고리와 평점을 확인할 수 있도록 join할 테이블 확인
2) 주문량이 높은 시간대 파악을 위한 시간대 설정
# 시간대 설정 방향 : 브라질 일과 시간 조사
- 점심 시간 : 11:30~14:30
- 근로 시간 : 평균 주 40시간(한국과 비슷함)
- 위 내용을 바탕으로 약 5시간씩 분할
3) 설정된 시간대를 기준으로 시간대별 주문량 파악
분석 결과 1 : 시간대별 주문량
- 주문량이 낮은 시간대 1 : 02:00~07:00
- 주문량이 낮은 시간대 2 : 23:00~02:00
-> 해당 내용을 바탕으로 해당 시간대 광고 비용 절감
4) 설정된 시간대를 기준으로 주문량이 가장 높은 상품 카테고리 파악
분석 결과 2 : 시간대별 주문량이 가장 높은 카테고리
- 추출된 데이터를 바탕으로 해당 시간대에 해당 카테고리의 광고 노출 및 도달률을 높이는 마케팅 전략을 세울 수 있음
- 모든 시간대의 주문량 1,2위 카테고리가 bed_bath_table, health_beauty인 것을 알 수 있음
- 추가로 고려할 점 : 시간대별 상위 카테고리에서 나아가 성별이나 연령 등의 데이터를 추가로 수집하여 고객 타겟팅을 심도 있게 할 필요가 있다고 여겨짐
> 아쉬운 점
_모든 시간대에 주문량 상위 카테고리가 동일하여 상위 카테고리만으로는 유의미한 결과를 얻지 못함. 추가적인 고려 요소가 필요함
_시각화된 모습이 세련되지 않음(matplotlib 학습 필요)
# 마케팅 전략 제언
광고 비용 절감 및 절감된 비용을 효과적으로 투자
-> 주문량이 낮은 시간대의 광고 비용 절감
-> 주문량이 높은 시간대에 주문율이 높은 상품의 광고 노출