TIL(24.07.31.)

codataffee·2024년 7월 31일

TIL

목록 보기
114/135
post-thumbnail

#INTRO

오늘의 커피 !

화이팅이야.


#최종 프로젝트 진행

RFM 분석 (고객 분류)

  • RFM 수치 정리


R, F, M 분류 결과

  • RFM 고려 사항
  1. ACTIVE 고객에 대한 분류가 목적
    ( club_member_status 값이 ACTIVE, PRE-CREATE 인 고객 )

  2. 패션 커머스의 특성, 도메인에 관한 이해를 더해 주관적인 기준을 반영
    ( H&M 브랜드 특성상 빠른 주기의 제품 출시
    : 3주 단위의 NEW COLLECTION OPEN )

MONETARY
( 매출이 높은 고객이 우선이기 때문에 M 기준 분류를 먼저 진행 )

분류 그룹별 총 매출, 인당 평균 매출, 최소 매출, 최대 매출 등
각 요인들을 복합적으로 확인하여 총 5가지 그룹으로 점수화

  • 결과
    • 그룹별 Monetary 기준
      10 이상 = 5점 (2710명 → 전체 매출의 4.3 %)
      5 이상 10 미만 = 4점 (15747명 →전체 매출의 11.9 %)
      0.9 이상 5 미만 = 3점 (251289명 →전체 매출의 53.3 %)
      0.17 이상 0.9 미만 = 2점 (531634명 →전체 매출의 25.7 %)
      0.17 미만 = 1점 (554381명 →전체 매출의 4.9 %)

FREQUENCY
( 데이터에서 확인 가능한 2년 기간을 기준으로,
2년 동안 총 구매횟수를 방문 빈도의 수치로 정의 )

DECILE 분석을 통해 전체 분포를 확인하고,
해당 분포에서 방문 빈도를 기준으로 5가지 그룹으로 점수화

  • 결과
    • 그룹별 Frequency 기준
      104회 이상 (1주당 1회 방문) = 5점
      35회 이상 (3주당 1회 방문) = 4점
      12회 이상 (2개월당 1회 방문) = 3점
      2회 이상 (1년당 1회 방문) = 2점
      1회 이하 (재방문하지 않은 고객) = 1점

RECENCY
( 이탈 고객의 근거가 될 수 있는 RECENCY 수치를
일정 기간으로 구분하여 분류)

브랜드 주요 판매 제품의 특성을 고려해서 기간을 정량적으로 나눠
5가지 그룹으로 점수화

  • 결과
    • 그룹별 Recency 기준
      30일 이하 (1개월 이내 방문) = 5점
      30일 ~ 90일 (3개월 이내 방문) = 4점
      90일 ~ 180일 (6개월 이내 방문) = 3점
      180일 ~ 365일 (1년 이내 방문) = 2점
      365일 이상 (1년 이상 미방문) = 1점

RFM 세그먼트

R / F / M 각 점수를 합쳐 RFM 수치를 정성적인 평가 기준을 통해
고객 그룹을 분류하는 과정

1) 11가지 고객 등급 (예시)

'111|112|121|131|141|151' : '이탈 고객',
'332|322|233|232|223|222|132|123|122|212|211' : '동면 고객',
'155|154|144|214|215|115|114|113' : '놓치면 안 될 고객',
'255|254|245|244|253|252|243|242|235|234|225|224|153|152|145|143|142|135|134|133|125|124' : '이탈 우려 고객',
'331|321|312|221|213|231|241|251' : '휴면 예정 고객',
'535|534|443|434|343|334|325|324' : '관심 필요 고객',
'525|524|523|515|514|513|425|424|413|414|415|315|314|313' : '잠재 고객',
'522|521|512|511|422|421|412|411|311' : '신규 고객',
'553|551|552|541|542|533|532|531|452|451|442|441|431|453|433|432|423|353|352|351|342|341|333|323' : '잠재 충성 고객',
'543|444|435|355|354|345|344|335' : '충성 고객',
'555|554|544|545|454|455|445' : 'VIP 고객'

2) 4가지 고객 분류 그룹 (예시)

'VIP 고객' '충성 고객' '잠재 충성 고객' : ’다이아몬드’
'신규 고객' '잠재 고객' '관심 필요 고객' : ‘골드'
'휴먼 예정 고객' '이탈 우려 고객' '놓치면 안될 고객' : ‘실버’
'동면 고객', '이탈 고객' : ‘브론즈’

위 두 예시처럼 ACTIVE 고객들의 RFM 점수 분포를 확인하며,
고객 등급을 나누고 등급을 묶어 고객을 분류할 예정.


군집화 결과

  • 군집화 대상 데이터 공통 사항
    • TRANSACTIONS 테이블 내 데이터가 있는
      (구매 기록이 있는 고객)
    • 최소 2개 이상의 날짜에 구매 기록이 있는
      (재구매 고객)
      • 즉, 재구매 고객을 대상으로 군집화 진행

CASE 1 (5개 군집)

  • 군집화 기준
    • 연속형 변수 : RFM 수치 + 평균 구매 주기
    • 범주형 변수 : 나이대(AGE_GROUP), 구매 경로(온,오프라인)
  • 컬럼 정리
    • 연속형 : 로그 변환 후 STANDARDSCALER 로 스케일링
    • 범주형 : 레이블 인코딩 후 STANDARDSCALER 로 스케일링
  • 군집별 특성
  • 2, 3차원 시각화 (PCA Plot)
  • 실루엣 분포

CASE 2 (5개 군집)

  • 군집화 기준

    • 연속형 변수 : RFM 수치, 평균 구매 주기, CHANNEL_PREFERENCE(온, 오프라인 구매 비중)
    • 범주형 변수 : 나이대(AGE_GROUP), 고객 상태(CLUB_MEMBER_STATUS)
  • 컬럼 정리

    • 연속형 : 로그 변환 후 STANDARDSCALER 로 스케일링
    • 범주형 : 나이대(AGE_GROUP) - 레이블 인코딩 후 STANDARDSCALER 로 스케일링 / 고객 상태(CLUB_MEMBER_STATUS) - ONEHOT 인코딩
  • 군집별 특성

  • 2, 3차원 시각화 (PCA Plot)

CASE 3 (4개 군집)

  • 군집화 기준
    • 연속형 변수 : RFM 수치, 평균 구매 주기, CHANNEL_PREFERENCE(온, 오프라인 구매 비중)
    • 범주형 변수 : 나이대(AGE_GROUP)
  • 컬럼 정리
    • 연속형 : 로그 변환 후 STANDARDSCALER 로 스케일링
    • 범주형 : 레이블 인코딩 후 STANDARDSCALER 로 스케일링
  • 군집별 특성
  • 2, 3차원 시각화 (PCA Plot)

  • 실루엣 분포

조금 더 잘된 군집 결과를 찾기 위해,
데이터 왜도(치우침)를 정규 분포화하기 위한 로그 스케일링 후,
모든 컬럼을 스탠다드 스케일링으로 범위를 맞춰 군집화를 해보기로 했다.

군집 알고리즘은 K-Means 클러스터링과 GMM(가우시안 혼합 모델)
군집은 PCA Plot, 실루엣 계수 분포, T-SNE 시각화 후,
시각화 결과를 기반으로 군집 결과 채택 예정.


정리
군집화와 RFM 고객 분류가 끝난 결과를 활용해서,
우리가 집중해야 할 고객을 정의하고,
해당 고객의 코호트 분석을 통해 구매 패턴(재구매율, 이탈률 등)을
확인하고, 마케팅 전략 수립과 이탈고객 예측, 제품 추천 시스템 개발 등의
다음 단계로 넘어가자!


#OUTRO

오늘의 한 줄.

시간.. 멈춰..

profile
커피 좋아하는 데이터 꿈나무

0개의 댓글