귤 농장 스토어 데이터 분석

김재현·2022년 11월 10일
0

project

목록 보기
11/12

귤 농장 스토어의 데이터 분석 프로젝트입니다.


1. 프로젝트의 목적

비즈니스에서 직관이라는 것이 매우 중요한 역할을 합니다. 실제로 농장 운영에 있어서 대부분의 의사결정은 직관적인 판단에 의존해왔습니다. 하지만, 직관이라는 것이 항상 맞는 것은 아니기 때문에 데이터 기반의 의사결정이 필요성을 느꼈습니다.

하지만, 농장 관련 데이터들이 엑셀 파일로 쪼개져있고 분석에 용이하지 않았습니다. 그래서 본 프로젝트에서 데이터셋을 구축하고 궁금했던 내용을 SQL로 분석해보고자 합니다.


2. 데이터 전처리 및 DB 적재

데이터 전처리

대부분의 초기 비즈니스에서 그러하듯 데이터가 깔끔하게 정리되어 있지 않기도 하고, 아예 없는 데이터도 있었습니다. 우선, 가지고 있는 데이터 중 배송 데이터를 가지고 전처리 하여 필요한 데이터를 취합했습니다.

데이터 기간 : 2018년 10월 ~ 2022년 1월
상품 수 : 유라조생, 춘견, 황금향, 레드향 (총 4가지 품목)

컬럼에 대한 설명은 다음과 같습니다.

  • season : 판매연도
  • item : 상품명
  • date : 배송일
  • name : 고객명
  • phone : 고객번호
  • address : 고객주소
  • cnt : 주문한 상품수
  • kg : 주문한 상품의 무게
  • market : 판매처

DB 적재

How to import csv file in MySQL
How to connect MySQL to Redash

위에서 취합한 데이터를 csv 파일로 저장한 후 MySQL에 업로드 하였습니다. 그리고 MySQL 데이터베이스와 redash와 연동하여 아래의 질문들을 해결해보았습니다.


3. 데이터 분석

Q1. RFM 분석

단골 고객이 궁금해요!

아버지께서 쉽게 단골을 관리할 수 있도록, RFM 분석을 진행했습니다. 2021년 1월 3일부터 2022년 10월 20일까지의 고객 데이터를 사용했습니다. 고객군을 분류하기 위해 다음과 같이 기준을 설정했습니다.

Recency : 2022년 10월에 구매를 하였는가?
Frequency : 데이터 집계 기간 중 3번 이상 구매를 하였는가?
Monetary : 100,000원 이상 구매하였는가?

앞서 설정한 기준에 부합하면 1을 반환하고, 부합하지 않으면 0을 반환하는 SQL 쿼리문을 작성하였습니다. 이제 이 쿼리문을 실행하면 RFM 분석이 완료가 됩니다.

모든 변수에서 기준을 충족한 10명의 고객이 있었습니다. 해당 고객군의 리스트를 작성하여 아버지께 전달드렸습니다. 이 분들을 단골 고객으로 설정하여 리워드 상품을 보냈습니다.


Q2. 상품별 평균 판매기간

춘견을 판매 중지는 옳은 선택이었나요?

춘견이라는 감귤 품종을 재배하고 3년간 판매를 진행했었습니다. 하지만 18-19년도를 마지막으로 재배 및 판매를 종료했는데요. 이 선택이 옳은 결정이었는지 데이터로 확인해보고 싶었습니다.

date_cnt : 판매일수
date_duration : 판매기간

빨간색 박스 테두리로 강조한 부분만 보더라도 춘견의 판매일수와 판매시기가 타 상품 대비하여 매우 긴 것을 확인할 수 있습니다. 표에 포함되어있는 데이터가 많아 품목별 평균을 매겨 데이터를 다시 정리해보았습니다.

정리된 데이터를 보시면 4가지 품목중 춘견이 뚜렷하게 판매에 있어서 가장 긴 시간이 소요됨을 알 수 있습니다. 단순 판매기간만으로 상품의 상품성을 비교하는 것은 어렵지만, 타 상품대비 수요가 떨어진다는 것을 추측해볼 수는 있을 것 같습니다.

이커머스 판매자들에게 필요한 데이터를 제공해주는 아이템 스카우트의 자료에 따르면, 타 상품 대비 춘견이라는 상품은 지표상 저조한 성과를 보이고 있습니다.

춘견이라는 상품이 온라인 판매에 있어서 리소스가 많이 드는 상품이라는 것을 데이터를 통해 확인했습니다. 실제로 춘견이 재배하기 까다롭기도 하고, 농장에 메인 상품이 아니었던 만큼 판매 종료 후 품종을 개량한 것은 좋은 선택이었다고 할 수 있겠습니다.


Q3. 재구매 고객의 비율

재구매 고객은 얼마나 되나요?

저희 농장을 이용해주신 고객님들 중 재구매율이 얼마나 되는지 궁금했습니다. 자체 스토어가 아니었기 때문에 고객별 ID가 따로 부여되지는 않았습니다. 그래서 고객의 전화번호를 기준으로 같으면 재구매율을 확인해보았습니다.

20-21년도에는 12.30%였던 재구매율이, 21-22년도에는 15.39%로 개선되었습니다. 전화번호로 집계를 했기 때문에, 신뢰도는 낮겠지만 고객의 재구매율이 늘고 있다는 긍정적인 신호를 확인할 수 있었습니다.


Q4. 생산량 증가 추이

생산량의 증감율이 궁금해요

귤을 수확할 때, 직관적으로 작년보다 귤이 많이 달린 것 같다는 생각이 들었습니다. 실제로 이 생각이 맞는지 데이터로 검증하고 싶었습니다.

그래서 20-21년도 대비 21-22년도에 각 상품이 많이 생산되었는지 판매 데이터를 활용하여 알아보았습니다. 소수점은 FORMAT 함수와 ROUND 함수를 사용하여 정리했습니다.

세 상품 모두 생산량이 늘어나고 있음을 확인할 수 있습니다. 묘목의 크기가 크고 생산량이 증가하면서 나온 결과입니다. 세 상품 중 레드향이 특히 높은 증가율을 보이고 있습니다.

한편, 유라조생의 증가율은 상대적으로 저조했는데요. 어린 묘목이 성장하면 증가율이 어떻게 변할 지 궁금했습니다.


Q5. 판매 채널의 비중

어디서 구매가 가장 많이 들어오고 있나요?

현재 농장의 판매 채널은 네이버스토어, 네이버카페, 상인, 기타가 있습니다. 이 판매 채널이 현재 주문량에 얼마나 많은 부분을 차지하는지 궁금했습니다. 그래서 위와 같은 쿼리문을 작성해 실행해보았습니다.

판매 채널 중 개설된지 가장 얼마 되지 않은 네이버 스토어의 비율이 가장 낮았습니다. 하지만, 네이버 스토어의 수수료가 다른 판매 채널에 비해 높기 때문에 당장 비율을 높이고자 하지는 않아도 될 것 같습니다.

비율에 대한 내용은 테이블 보다는 파이차트로 보는 게 편할 것 같다고 생각했습니다. 그래서 Redash로 시각화를 했습니다.

기타의 비율은 무료 28.7% 였는데요. 이는 상품이 어디서 팔리는 지 데이터로 확인할 수 없다는 것을 의미합니다. 이 기타의 비율을 낮출 수록 판매 결과를 확인하는 데 용이할 것 같습니다.


Q6. 무게별 판매량

5kg가 많이 나가나요? 10kg가 많이 나가나요?

모든 상품은 5kg와 10kg로 나누어 판매를 진행하고 있습니다. 상품별로 어떤 무게가 많이 나가는지, 그리고 판매처별로 어떤 무게가 많이 나갔는지가 궁금했습니다.

레드향의 경우 농장에 있는 상품 중에 가장 가격이 비싼 품종입니다. 그래서 가격에 부담감을 느끼시는 분들이 5kg를 많이 찾으시는구나 하는 것을 확인해볼 수 있었습니다.

위의 쿼리문에서 조금 변형을 주어 판매처별로 어떤 무게가 많이 나가는지를 확인해보았습니다. 그리고 이를 파이차트로 시각화했습니다.

유입관련 데이터가 없어 정확한 판단은 힘들지만, 직접 판매를 해보았을 때 네이버스토어 고객들의 연령층이 비교적 낮다고 생각이 들었습니다. 그리고 네이버카페는 상대적으로 부모님 나이대의 분들이 많이 활동을 하셨습니다.

그래서 데이터에서도 명확한 지표가 나온 게 아닌가 싶습니다. 네이버스토어에서는 비교적 가격의 부담감이 적은 5kg 상품이 많이 나가고 있구나 하는 것을 확인해 볼 수 있었습니다.

0개의 댓글