[TIL#55 250514]

강민지·2025년 5월 14일

데이터분석_TIL

목록 보기
59/81

분석을 할수록 느끼는건데, 데이터에 정보가 너무너문머ㅜㄴ너무 부족하다.
그래도 일단 열심히 EDA해서 착즙한 인사이트는...

  1. 유입 대비 구매 전환율이 매우 적음

    전체 고객 대비 구매 고객의 비중이
    유저 기준으로 13024/593746 = 약 2.2%
    세션 기준으로 13311/689412 = 약 1.9%

    따라서 구매 전환을 일으킬 마케팅이 매우 필요한 상황임!!



    view -> cart, view -> purchase 전환율은 매우 낮지만, 그래도 장바구니에 담긴 상품들은 구매로 전환되는 비율이 높아짐

  2. 재방문자 비율도 전체의 약 13.9%에 불과함

  • 1회 방문자: 502335명
  • 재방문자: 80961명

    재방문을 유도하기 위한 마케팅도 필요함


프로젝트 목표

일단 가장 큰 문제는

  • 신규 고객은 많은데 구매 전환율은 매우 낮음
  • 재방문, 재구매 비율도 매우 낮음

그리고 주로 노트북, 스마트폰 등 전자기기 판매량이 높은 것으로 보이는데, 이런 상품들은 가격대가 높은 편이기 때문에 방문자의 구매 전환율과 재구매율을 조금만 높여도 매출이 크게 상승할 것 같다고 생각이 들었다.

물론 전자기기라는 특성상 재구매율이 낮을 수밖에 없다고 보이긴 한다.
이걸 고려하면 재구매율보다는 구매전환율을 높이는 걸 우선으로 하는 게 좋을지도...?!


의문점

데이터를 살펴보다가 product_id는 동일한데 category_code, price가 다른 상품을 발견했다.
가격은 구매 시기에 따라 조금씩 변동할 수 있지만, 카테고리가 다른 건 이상하다고 생각이 들었다.

그런데..... 갑자기 든 생각이

  • 월별, Main category별 유저 수

  • 월별, Main category별 구매 횟수

유독 2019-10, 2019-11에는 electronics 카테고리에 대한 event가 많고,
12월부터는 갑자기 electronics에 대한 event가 확 줄어든 뒤 construction이 증가했다는 게 떠올랐다.

그래서 이걸 다시 보니까 10월에는 electronics였던 상품이 1월에는 construction으로 바뀌어있는 게 눈에 띄었다.

그래서 혹시 데이터상에서...... 10월, 11월에는 electronics에 포함되어있던 상품들이 12월 이후부터는 갑자기 construction으로 카테고리가 바뀐 건 아닐까....? 라는 무서운 생각이 들었다.

이 부분에 대해서는 좀 더 분석해봐야 할 것 같지만,,, 만약 그렇게 바뀐 거라면 이걸 어떻게 처리해야할 지 막막하다. 🤦‍♀️🤦‍♀️


질문 내용 & 피드백

1. 일단 위에서 언급한 카테고리 변경 이슈...

아무리봐도 특정 시점 이후로 카테고리 변경이 있었던 것 같다.

construction 카테고리에서 브랜드가 'apple', 'samsung'인 것만 봤는데 이벤트 타임이 12월 1일부터 시작한다.
즉, 10, 11월에는 데이터가 없다는 건데... 12월 1일을 기점으로 카테고리 변경이 일어난 걸 의심하지 않을 수가 없다..^^;;

  • 튜터님 피드백
    : 튜터님이 보시기에도 확실히 특정 기점을 기준으로 사이트 개편 등의 이유로 카테고리 변경이 있었던 것 같다고 하셨다. 실제로 현업에서 이런 일이 흔히 일어나며, 이를 파악하고 이에 대한 지표를 분석하는 것도 데이터 분석가의 역할이라고 했다.

    하지만 어떤 상품에 대해서 변경이 일어났는지 알 수가 없기 때문에, 데이터를 대체하는 방식은 마음대로 데이터 조작을 하는 게 될 수 있다고 생각했다.

    따라서 원본 데이터를 그대로 유지하되 카테고리 변경 전후를 비교해서 또 다른 인사이트를 찾아보기로 했다.

    • 변경된 카테고리 확인
    • 변경된 상품의 비율 (몇개 바뀌었는지, 비율)
    • 변경 전 후 분포

    머리는 복잡해졌지만 고민하는 내용들이 현업에서와 유사하고 매우 좋은 방향으로 가고 있는거라고 칭찬을 마구마구 받아서... 일단 기분은 좋아짐.. 근데 막막함..

2. 이탈 고객 선정 기준?!

단순히 "이탈율 = 1-전환율"이라고 생각했는데,, (물론 이것도 맞긴 함)
우리는 퍼널별 분석을 중점으로 하고 있기 때문에 각 퍼널별로 이탈 고객을 어떻게 정의내릴지 기준이 필요했다.

다음과 같은 여러가지 선택지들 중에서

  • view -> cart, cart->purchase 각 행동 흐름에서 '다음 단계의 액션을 취하지 않은 고객'을 이탈고객으로 정의한다. 즉, 조회를 했지만 장바구니에 담지 않은 고객, 장바구니에 담았지만 구매로 이어지지 않은 고객을 모두 이탈고객이라고 정의한다.
  • view만 하던지 cart에 담았던지 '결과적으로 구매로 이어지지 않은 고객'을 이탈고객으로 정의한다.
  • 일정 기간(ex. 14일)을 설정하고, '일정 기간동안 아무 액션도 없는 고객'을 이탈고객으로 정의한다.

여기서 우리는 "퍼널별 분석"이라는 우리의 분석 방향을 고려하여 첫번째 기준으로 결정했다.
즉, 우리에게 주어진 데이터 상에서 다음 단계의 행동이 나타나지 않은 고객을 이탈고객으로 간주하였다.

3. DayN Retention

https://yozm.wishket.com/magazine/detail/2143/
이건 아직 잘 못 들여다봐서,, 이해가 좀 더 필요하다.
튜터님이 14일, 21일 이렇게 주차별로 보는 걸 추천한다고 하신 것밖에 기억이 안남...ㅎ

4. 카테고리 변경 이슈가 낳은 또다른 이슈......

2019년 12월 1일 기점으로 카테고리 변경이 있었나보다 하고 좀 더 데이터를 들여다봤는데 이상한 점이 한두개가 아니었다.

  • product_id가 같은데 브랜드가 갑자기 바뀌는 경우도 있고
  • 카테고리가 1번이 아니라 2번 바뀐 경우도 있고
  • 우리가 확인했던 electronics -> construction 뿐만 아니라 다른 카테고리에서도 변경이 많이 일어난 것을 확인했다.

여기서 의욕을 잃고 잠시 동안 휴식타임을 가진 뒤,, 머리 싸매고 고민하다가
"70만개 행 중에 9천여개 정도니까 이상치로 간주하고 날려버리자"라는 결론을 지은 뒤 튜터님한테 질문을 드렸다.

근데 생각보다 더 심플한 해결책을 주셨음ㅋㅋ
"product_id를 버려라!"

실제로 실무에서도 이런 경우가 흔히 있다고 한다.
기획팀에서 product_id를 부여하거나 카테고리를 분류하는데

  • 만약 어떤 상품이 단종되면 그 id를 새로운 상품에 부여해버리는 경우도 있고
  • 갑자기 사이트를 개편해서 카테고리를 재분류하는 경우도 있고
  • product_id처럼 숫자를 부여하는 것에 한계가 있어서 생각보다 어떤 상품에 대한 고유값이 아닐 수도 있다

product_id를 신경쓰지 않고 그냥 카테고리와 브랜드 그 자체에만 신경쓰기로 했다.

3개의 댓글

comment-user-thumbnail
2025년 5월 15일

잠깐 봤는데도 뭐가 되게 복잡하고 어렵네요,,
이번 프로젝트는 수다 떨러가지도 못하겠음 민지님 화이팅

1개의 답글