[D.S : 데이터 분석 및 데이터 사이언스] RFM 분석이란.

post-thumbnail

[D.S : 데이터 분석 및 데이터 사이언스] RFM 분석이란.

▽ [D.S : 데이터 분석 및 데이터 사이언스] RFM 분석이란.

목  차

1. RFM의 개념

2. RFM 분석 프로세스

3. RFM 분석 활용.

4. RFM 적용 시 고려할 점.

5. RFM 분석의 장단점.

6. 추천 학습 루트.


1. RFM의 개념 (Recency, Frequency, Monetary Value) 💡


RFM은 고객 세분화의 척도인 "CLV : 고객 생애 가치"를 예측하는 가장 효율적인 휴리스틱(Heuristic) 방법론입니다.
3가지 지표(R,F,M)는 상호 보완적으로 고객의 행동을 정의합니다.

RFM 분석에서는 '회사 매출에 가장 중요한 요인은 최근성(Recency), 행동 빈도(Frequency), 구매금액(Monetary)이다' 라는 가정을 두고 있으며, 이 3가지 관점에서 고객의 가치를 분석.

즉, 사용자별로 이 3가지 관점에서 (얼마나 최근에, 얼마나 자주, 얼마나 많은 금액을 지출했는지) 에서
1) 사용자들의 분포를 확인 하거나 2) 사용자 그룹이나 등급을 나누어 분류(Segmentation) 하는 분석 기법

  • 구매 가능성이 높은 고객을 선정할 때 용이한 분석 방법이며, 사용자들의 평소 구매 패턴을 기준으로
    분류를 진행하기 때문에, 각 사용자 그룹의 특성에 따라 차별화된 마케팅 전략을 수립 가능.

정리 :
RFM은 고객의 과거 구매 행동을 기반으로 고객 가치를 평가하고 세분화하는 분석 기법.

CRM/그로스 마케팅

Recency (최근성)

  • 고객의 활성도 척도. 최근 구매 고객일수록
    마케팅 메시지에 대한 반응률(Response Rate)과 재구매 가능성이 높음.

  • 이탈 방지 전략의 핵심 지표

Frequency (빈도)

  • 고객의 충성도 척도. 반복 구매는 제품/서비스에 대한 만족도를 의미하며,
    장기적인 고객 관계의 기반

Monetary Value (구매 금액)

  • 고객의 기여도 척도. 기업 수익에 직접적인 영향을 미치며,
    가장 가치 있는 고객을 식별하는 데 사용.

데이터 엔지니어링

Recency (최근성)

  • 기준일(오늘)로부터 마지막 구매일까지의 경과 일수를 계산하는 지표.

  • 주로 SQL의 DATEDIFF()나 Python의 datetime 연산을 사용.

  • 값이 작을수록 좋습니다.

Frequency (빈도)

  • 특정 기간 내의 순 주문(결제 완료) 건수를 COUNT() 집계 함수로 계산.

  • 기간 설정이 데이터 모델링의 중요한 요소.

Monetary Value (구매 금액)

  • 특정 기간 내의 실 결제 금액(환불/취소 제외)을 SUM() 집계 함수로 계산.

  • 데이터 정제 과정에서 할인, 쿠폰 적용 여부를 명확히 해야함.

ML 엔지니어링

Recency (최근성)

  • 고객의 상태 변화(Transition)를 예측하는 데 가장 중요한 Feature.

  • R 값이 높아지면(구매가 오래될수록) 이탈 확률이 급격히 증가.

Frequency (빈도)

  • 이탈 예측(Churn Prediction)이나 구매 확률 예측(Propensity to Buy) 모델에서 고객의 참여 수준을 나타내는 핵심 Feature.

Monetary Value (구매 금액)

  • 고객 생애 가치(CLV) 예측 모델에서
    고객의 과거 재정적 가치를 나타내는 직접적인 입력 Feature.

2. RFM 분석 프로세스.


1. 데이터 준비

CRM/그로스 마케팅 측면.

  • 분석 목표 설정 (예: 이탈률 10% 감소).
  • 기간 정의 (예: 최근 1년 구매 기록).

데이터 엔지니어링 측면.

  • 거래 데이터 ETL/ELT 파이프라인 확보.
  • 데이터 웨어하우스(DW)에서 고객ID, 주문일, 결제액 등 원천 데이터 추출.
  • 데이터 정제(Cleansing) 로직 구현 (환불, 테스트 거래 제외).

ML 엔지니어링 측면.

  • 모델 학습에 사용할 피처(Feature)로 R,F,M 값을 계산하는 스크립트 작성.

2. 지표 계산

CRM/그로스 마케팅 측면.

  • R,F,M 세 지표를 계산하고, R은 낮을수록, F, M은 높을수록 좋다는 점을 이해.

데이터 엔지니어링 측면.

  • SQL의 GROUP BY 및 Aggregation(집계) 함수를 사용해 효율적으로 R,F,M 값을 계산하고
    DW에 저장. (예: dbt를 활용한 모델링)

ML 엔지니어링 측면.

  • 지표 값의 분포 분석(Exploratory Data Analysis, EDA)을 수행하여
    이상치(Outlier)를 확인하고 필요 시 변환(Transformation) 방법 검토.

3. 점수화 & 세분화

CRM/그로스 마케팅 측면.

  • 5x5x5 매트릭스 기반의 고객 세그먼트 정의 및 이름 부여
    (예: Champions, Loyal, Hibernating).

데이터 엔지니어링 측면.

  • 지표의 분포를 기반으로 분위수(Quantile) 경계값을 결정하고,
    각 고객에게 1~5점의 RFM 점수를 부여하는 로직 구현.

ML 엔지니어링 측면.

  • R,F,M 값에 대한 K-means 클러스터링을 적용하여 데이터 기반의 최적 세그먼트를 자동으로 도출.
  • 최적의 K 결정 로직 구현.

4. 전략 실행.

CRM/그로스 마케팅 측면.

  • 정의된 세그먼트별로 개인화된 캠페인 실행 (예: 111 이탈 고객에게 50% 할인 쿠폰).
  • 캠페인의 A/B 테스트 기획.

데이터 엔지니어링 측면.

  • 최종 세그먼트 정보를 CRM/CDP 시스템으로 동기화하는
    안정적인 데이터 전송(Data Load) 파이프라인 구축.

ML 엔지니어링 측면.

  • 세그먼트 정보를 활용하여 타겟 그룹별 예측 모델을 실행하고 결과를 마케팅 팀에 제공.

3. RFM 분석 활용.


CRM/그로스 마케팅 측면

타겟팅 효율화.

  • 마케팅 자원(예산, 인력)을 R,F,M 점수가 높은 고객군에 집중하여
    ROI(투자 대비 효과)를 극대화.

이탈 고객 재활성화(Retention)

  • 'R 점수' 가 급격히 낮아지는 고객(Hibernation/At Risk)을 실시간으로 감지하고,

  • 이들에게 {Push 알림, 이메일, 광고 리타겟팅} 등의 채널을 통해
    맞춤형 오퍼를 제공하여 이탈을 방지.

업셀링/크로스셀링(Revenue)

  • F,M이 높은 VIP 고객에게는 고가 상품(Up-selling)**이나 관련 상품 카테고리(Cross-selling)를 추천하여 고객당 평균 수익(ARPU)을 높임.

데이터 엔지니어링 측면 :

데이터 파이프라인 구축 :

  • Apache Airflow를 사용하여 R,F,M 계산을 매일(Daily) 자동으로 실행하고, 최신 RFM 점수를 DW의 고객 마스터 테이블에 업데이트하는 자동화된 ETL 워크플로우를 구축.

데이터 품질 관리 :

  • R,F,M 지표의 값이 정상 범위(Valid Range)를 벗어나는지 주기적으로 모니터링하여, 원천 데이터의 이상(Anomaly) 여부를 감지하고 데이터 오류를 방지

ML 엔지니어링 측면.

Feature Engineering:

  • R,F,M을 기본 피처로 사용하고, 이를 Log 변환이나 정규화(Scaling)하여 ML 모델의 예측 성능을 높임.

예측 모델링:

  • R 값의 변화 속도나 F,M 점수의 과거 추이를 Feature로 추가하여
    이탈 확률, 다음 구매 시점 등을 예측하는 시계열(Time-series) 분석이나 확률론적 모델을 개발.

모델 서빙 (Serving):

  • 실시간으로 유입되는 신규 고객에 대해 RFM 점수를 계산하고, 이 점수를 기반으로
    자동화된 세그먼트 예측 결과를 반환하는 API를 구축하여 마케팅 시스템과 연동.

4. RFM 적용 시 고려할 점.


CRM/그로스 마케팅

비즈니스 주기의 반영

  • 구매 주기가 긴 산업(가구, 자동차 등)은 R의 기간을 길게 설정해야 하며,
    R의 점수 기준을 보수적으로 잡아야 함.

지표별 가중치.

  • 단순히 R/시간, F/시간, M 의 곱으로 평가하는 대신,
    비즈니스 목표에 따라 특정 지표에 더 큰 가중치를 부여하여 핵심 고객을 정의해야 함.
    (예: 초기 성장이 목표일 때 F 가중치 상향)

데이터 엔지니어링

기준 기간 설정.

  • F와 M을 계산할 때 기준 기간(Window)을 몇 개월 또는 몇 년으로 설정할지
    신중하게 결정해야 함.
    • 이 기간이 다르면 고객의 F,M 점수도 달라짐.

데이터 정의의 통일.

  • '구매'의 정의를 순매출액으로 할지, 총매출액으로 할지, 세금 및 배송비 포함/제외 여부를 데이터 팀과 마케팅 팀이 명확히 합의해야함.

ML 엔지니어링

변수 간 상관관계.

  • F와 M은 강한 양의 상관관계를 가질 가능성이 높음.
    • 다중공선성 문제가 발생 가능.
  • 주성분 분석(PCA) 등을 통해 차원을 축소하거나 변수를 결합하는 방안을 고려해야 함.

비(非)구매 활동 반영.

  • 콘텐츠 시청 시간, 앱 접속 빈도 등 구매가 아닌 참여 활동(Engagement) 지표를
    R ′ F ′ M 형태로 확장하여 잠재 고객의 가치를 더 정확하게 평가해야함.

5. RFM 분석의 장단점.


장점.

CRM/그로스 마케팅

  • 높은 실용성:
    • 분석 결과가 곧바로 실행 가능한 마케팅 전략으로 연결.
    • 단기적인 성과 예측에 유리.

데이터 엔지니어링

  • 구현 용이성:
    • 기본적인 거래 데이터만 있으면 계산할 수 있어 구축 비용이 낮고 데이터 소스가 명확.

ML 엔지니어링.

  • 강력한 Feature:
    • 개발하는 예측 모델(이탈, 구매 확률)에서 가장 중요한 설명 변수 중 하나로
      높은 예측력을 제공.

단점.

CRM/그로스 마케팅

  • 정적 분석의 한계:
    • 특정 시점의 과거 데이터만 반영하므로,
    • 잠재적인 미래 가치(LTV)를 온전히 예측하기 어려움.

데이터 엔지니어링

  • 데이터 민감성:
    • 이상치(Outlier)에 민감하며,
      몇몇 초대량 구매 고객(Whales)이 전체 분위수 기준을 왜곡 가능.

ML 엔지니어링.

  • 설명력 부족:
    • 왜 구매했는지, 어떤 상품을 좋아하는지 등
      고객의 니즈나 선호도는 설명하지 못함. (추가 데이터 필요).

6. 추천 학습 루트.


신입 마케터/데이터 엔지니어로서 RFM 분석을 마스터하기 위한 체계적인 학습 로드맵입니다. CRM/그로스 마케팅과 데이터/ML 엔지니어링 관점을 모두 담아 실무에 바로 적용할 수 있도록 구성했습니다.


6. 🚀 추천 학습 방식.

단계학습 주제도구/자료학습 목표 및 관점
1RFM 개념 & CRM 전략 이해HubSpot, Salesforce, 국내/외 마케팅 CRM 블로그[CRM/그로스 마케팅] RFM 지표별 고객 세그먼트의 특징(예: 555 vs 511)을 이해하고, 각 세그먼트별로 어떤 마케팅 메시지(캠페인)가 효과적인지 파악합니다.
2SQL 기반 RFM 지표 집계 실습MySQL / PostgreSQL, 실제 또는 가상의 거래 데이터셋[데이터 엔지니어] MAX(), COUNT(), SUM(), DATEDIFF() 등 SQL 함수를 사용하여 R, F, M 3가지 핵심 지표를 직접 추출하고 집계하는 쿼리를 작성합니다. 데이터의 흐름을 이해하는 기본 단계입니다.
3Python pandas로 RFM 분석 자동화Python, pandas, matplotlib[데이터 엔지니어/ML 엔지니어] SQL로 추출한 데이터를 pandas DataFrame에 로드하고, 분위수(Quantile) 기반으로 R, F, M 점수를 부여하며, 고객 세그먼트를 분류하는 스크립트를 작성하여 분석 과정을 자동화합니다.
4RFM → K-means 클러스터링 확장Python, scikit-learn[ML 엔지니어] 전통적인 분위수 기반 점수 부여 방식의 한계를 벗어나, K-means와 같은 비지도 학습 알고리즘을 적용하여 데이터가 스스로 고객 군집을 형성하도록 모델링하고 결과를 해석합니다.
5RFM 기반 이탈 예측 모델 구축Python, Logistic Regression / XGBoost[ML 엔지니어] R, F, M 지표를 특징(Feature)으로 사용하여 고객의 이탈 여부(Churn)를 예측하는 지도 학습 모델을 개발합니다. 이로써 RFM이 단순 분석을 넘어 예측 모델의 핵심 피처임을 이해합니다.
6Airflow 기반 자동화 파이프라인 구축Apache Airflow, dbt (Data Build Tool)[데이터 엔지니어] 매일 또는 매주 RFM 지표를 계산하고, 고객 세그먼트를 분류하며, 이탈 예측 모델을 실행하여 결과를 CRM 시스템으로 전달하는 종단 간(End-to-End) 데이터 파이프라인을 자동화합니다.

0개의 댓글