[프로젝트] 데이터 기초 분석 1

HEY! MIN·2024년 10월 8일

이커머스 이벤트 히스토리 데이터

  • 해당 주제는 이커머스에 실제로 일어나는 행동 데이터를 SQL로 활용하여 기초 분석을 진행합니다.
  • 데이터는 중형 화장품 온라인 스토어의 1개월(2020년 2월)의 행동 데이터가 제공됩니다.

데이터에 대한 설명

  • 이 파일에는 중형 화장품 온라인 스토어의 1개월(2020년 2월)의 행동 데이터가 포함되어 있습니다.
  • 파일의 각 행은 이벤트를 나타냅니다.
  • 모든 이벤트는 제품 및 사용자와 관련이 있습니다.
  • 각 이벤트는 제품과 사용자 간의 다대다 관계와 같습니다.
Property-설명
event_time이벤트 시간이벤트가 발생한 시간(UTC).
event_type이벤트 유형이벤트의 유형은 총 4가지 *Event types로 구성되어있습니다.
product_id제품_아이디제품의 ID
category_id카테고리_아이디제품 카테고리 ID
category_code카테고리_코드제품의 카테고리 택소노미(코드명)는 가능하다면 만들 수 있습니다. 일반적으로 의미 있는 카테고리에 존재하고 다양한 종류의 액세서리에는 건너뜁니다.
brand상표브랜드 이름의 소문자 문자열. 놓칠 수 있음.
price가격제품의 부동 가격. 현재.
user_id사용자_아이디영구 사용자 ID.
user_session사용자 세션임시 사용자의 세션 ID. 각 사용자 세션에 대해 동일합니다. 사용자가 긴 일시 정지에서 온라인 스토어로 돌아올 때마다 변경됩니다.

*Event types

  • view : 사용자가 제품을 보았습니다
  • cart : 사용자가 장바구니에 제품을 추가했습니다.
  • remove_from_cart : 사용자가 장바구니에서 제품을 제거했습니다.
  • purchase : 사용자가 제품을 구매했습니다

주제 선정

  1. 브랜드별 구매전환율 분석
  2. 시간대별, 요일별, 가격대별 이벤트와의 상관관계 분석

주제 분배

  1. 브랜드별(정) -> 나
  2. 시간대별(황)
  3. 요일별(양)
  4. 가격대별(박)

시행 착오

이벤트 항목의 단순 갯수를 구해 계산해보고 뭔가 부족하다고 느껴 튜터님께 질문

Q. 현업에서 구매 전환율을 어떻게 구하나요

CTR=노출 대비 클릭률
CVR(구매전환율)=클릭 대비 구매율


하지만, 우리가 가진 이벤트 데이터는 아래와 같다.
VIEW -> CART -> PURCHASE OR REMOVE_OF_CART

현업의 구매전환율과 맞아떨어지지 않아 아래와 같이 임의로 설정.
VIEW->CART : 뷰에서 카트로 넘어가는 전환율
CART->PURCHASE : 카트에서 구매로 넘어가는 전환율
CART->REMOVE : 카트에서 제거 되는 비율
CART->STAY : 카트에서 유지되는 비율(카트-구매-리무브/카트)


전환율 계산의 포인트는 단순 갯수가 아닌 distinct를 활용한 중복제거!

튜터님이 알려주신 쿼리를 활용해 아래와 같은 쿼리를 작성했다.
브랜드를 기준으로 각각의 전환율을 구하되, 브랜드 갯수가 너무 많기 때문에 총 매출을 기준으로 내림차순 했다. (총 매출 기준으로 상위권만 보기 위해)


그럼 null값을 제외(브랜드가 없는 상품 제외)하고 아래와 같은 표를 만들수 있다. veiw, cart, purchase, remove_of_cart의 각 갯수와 그걸 이용한 전환율, 마지막으로 단가가 필요할 것 같아 단가 부분을 추가한 표이다.


이렇게 만들어진 표를 이용해 차트를 만들고 나름의 분석과 인사이트, 예측등을 해 보았는데 그건 다음편에!

profile
It's a, it's the Pleasure Shop

0개의 댓글