[TIL] 은행 이탈 고객 데이터 분석 - 시각화 준비 (2024-07-04)

SHU·2024년 7월 5일

Data

Keggle - Bank Customer Churn
은행의 고객 이탈 관련 데이터

컬럼 설명

column namedescription
CustomerId고객 ID
CreditScore신용 점수
Geography고객 위치
Gender성별
Age나이
Tenure고객이 은행 고객이었던 연수
Tenure고객이 은행 고객이었던 연수
Balance계좌 잔액
NumOfProducts고객이 구매한 제품 수
HasCrCard신용 카드 보유 여부
IsActiveMember활성 고객 여부
EstimatedSalary예상 급여
Exited고객 이탈 여부
Complain고객 불만 여부
Satisfaction Score고객 만족도 점수
Card Type고객이 보유한 카드 유형
Point Earned신용 카드로 얻은 포인트

Tableau 시각화

대시보드 구성

  • 시계열적 요소가 없는 단일 시점의 데이터이며, 이탈에 영향을 줄 수 있는 요소와 이탈 여부로 구성되어 있기 때문에 이탈고객 현황 파악과 예측 결과를 표현하기로 함

    두 장의 대시보드로 구성
    1페이지 : 이탈고객 현황 파악
    2페이지 : 이탈 예측 모델 결과 서술

1차 역할 분담 : 1페이지 제작(3명), 예측 모델 생성(2명). 1페이지 제작을 맡음

시각화 준비

만들 차트 정의

  • KPI : 전체고객수, 이탈고객수, 이탈율, 비활성고객수(or 비율)
  • 이탈고객vs미이탈고객 수치형 지표들 비교 표
  • pie : 전체 중 이탈 고객 비율
  • 연령 따른 평잔액 변화 및 이탈율 변화
  • 성별 따른 고객 수 및 이탈고객 수
  • 지역별 이탈율
    ...

공통 규칙 정하기

  • 파생변수, 계산된 필드 생성 시 네이밍 규칙을 정하고, 만들었을 경우 공용 노션에 필드명과 수식, 설명을 기재하여 모두가 공통된 데이터를 사용할 수 있도록 함

    cal | [필드명 혹은 계산내용] : 계산된 필드
    p | [매개변수명] : 매개변수
    tf | [필터 내용] : 조건 필터

파생변수 생성

  • 일부 연속형 변수 : 그대로 사용하기보다 구간을 나누어 그룹화하여 사용하기로 함(ex : Age→10세 단위로 그룹화)
  • 이탈여부, 활성고객 여부 : 0/1로 기록되어 있는 데이터를 대시보드에서 효과적으로 표현하기 위해 이탈/미이탈과 같이 텍스트 형태로 표현

집계된 계산된 필드 생성

  • 원본 데이터가 customer id를 기준으로 한 행씩 구성되어 있기 때문에, 매번 고객 수를 사용하고 싶을 시 COUNTD함수를 설정해주어야 하는 번거로움이 있음. 이를 해결하기 위하여 집계된 고객 수 필드를 생성
  • 이탈여부 필드를 시트에 올릴 때마다 일부 요소를 재설정해야 하는 번거로움을 해소하기 위해 이탈율, 이탈고객수, 전체고객수 컬럼을 생성
profile
슈의 코드뜨개질

0개의 댓글