
몸살 기운.. 으실으실..
컨디션 조절 잘하기
PANDAS
str.contains() 메서드를 사용하여 특정 정규 표현식 패턴과 일치하는지 확인하기# 'DIAB1'로 시작하는 조건 확인
filtered_patients = patients['conditions'].str.contains(r'\bDIAB1', na=False)
정규표현식 (r'\bDIAB1')
\b : 단어 경계를 의미하며, DIAB1이 정확히 단어의 시작 부분에 있는지 확인
DIAB1 : 조건이 'DIAB1'로 시작하는 문자열과 일치하는지 확인
na = False : 결측값을 False로 처리하여 필터링 중 오류 방지
오늘 진행한 내용
튜터님 피드백
예측 모델링 과정에서 기술적으로는 흐름에 문제가 없다.
라벨링 되어 있지 않은 데이터를 적용해도
이탈할 것 같은 고객을 예측할 수 있을 것 같아서 전체적인 프로세스가 좋다.
모델 성능을 높이는 시도를 하려면 Recall 과 Precision 중 어느 곳에 경중을 둘 것인지
고민하고 해당 수치를 높이는 시도를 해볼 수 있을 것 같다.
(하지만 결국 f1_score 를 높이는 게 좋을 수 있을 듯)
다만, 실제 이탈 고객을 검증하지 못하는 것이 아쉬운 것 같다.
실무에서 실제 데이터로 이탈 고객에 대한 검증을 할 수 있다면 좋겠지만,
현 상황에서의 한계점을 인지하되 이탈 고객 예측을 위해 이런 부분까지
시도해봤다는 점을 중점적으로 가져가면 좋을 것 같다.
추가적으로 XAI(설명가능 인공지능) 중 LIME & SHAP 을 활용해서
머신러닝 모델의 결과를 설명할 수 있으니 시도해보면 좋을 것 같다.
이탈 고객 재정의
RFM 세그멘테이션 중 이탈 고객과 동면 고객, 이탈 우려 고객 등 그룹의 이름이
이탈 그룹을 정의하는 과정에서 복잡하게 설명되는 느낌이 있어서,
RFM 세그먼트를 수정하였다.
바뀐 세그먼트에 따른 교차분석 결과

바뀐 세그먼트에 따른
3번 군집 & 이탈 우려 고객 / 4번 군집 & 이탈 우려 고객 코호트 리텐션 결과


위 과정을 통해 이탈 고객에 대한 재정의를 완료하였고,
훨씬 깔끔한 과정을 통해 이탈 고객을 정의할 수 있었다.
BI 대시보드 관련해서는 매출, 고객 관련 대시보드는 어느 정도 완성이 되었으나,
예측 모델링을 활용할 수 있는 주요 대시보드인 이탈 고객 관리 대시보드에 대한 내용들이
다소 중구난방.. 정리가 되지 않았다.
튜터님의 피드백을 통해 필요한 주요 지표에 대해서는 정리가 되었으나,
(전체 고객 수, 이탈 고위험 고객 수, 활성 고객 수, 채널별 고객 이탈 추이 등)
(보는사람이 간단하게 느낄 수 있도록 (직관적으로 이해할 수 있도록) 제작하면 좋겠다.)
이 대시보드를 어떻게 활용하고 무엇을 얻을 수 있는지에 대한 큰 그림이 잘 그려지지 않은 것 같아 내일 레퍼런스들을 찾아보며 이탈 고객 관리 대시보드의 목적과 방향성에 대한 기획 후
모든 내용을 다시 정리하여 제작에 들어갈 예정이다.
오늘의 한 줄.
오늘은 8시간 잘 거야.