퍼포먼스 마케터 부트캠프 6주 4일차 (참여 23일차)

MIN BAEK·2025년 6월 19일
0

회의를 거의 새벽 1시까지 했다...
그래도 오늘이 팀프로젝트 진행하면서 가장 유의미한 활동들을 한 것 같아서 뿌듯하다.
이번에는 다같이 데이터 분석을 진행했고, 나도 혼자서 전처리를 해보면서 많은 시행착오를 거칠 수 있었다 ㅎ...

혼자 데이터 정리를 하면서 든 의문! 계속 빈도 수를 체킹하는 식으로 하다가 한계점을 발견했다.

단순 빈도만 봤을 때 한계점

예를 들어:

  • 자기계발: 지루함 9건, 추천 실패 7건
  • 웹툰: 지루함 4건, 추천 실패 4건
    이 숫자만 보면 자기계발이 더 이탈이 많아 보이지만,웹툰은 애초에 읽은 사람이 10명이고 자기계발은 100명이면?실제로는 웹툰의 이탈률이 더 높을 수도 있는 가능성이 있는 상황

비교하거나 판단 기준으로 사용하기 위해 비율(%) 기반 분석을 하는 것의 중요성을 깨달았다.

eda를 잘했다고 칭찬도 받았는데... ㅋㅋㅋㅋㅋ그냥 이것저것 해본건데 얻어걸린듯 싶지만 기분은 좋았다는..

EDA 탐색적 데이터 분석

데이터를 분석하기 전에 시각적 자료나 통계값 등을 만들어서 자료를 직관적으로 바라보는 시간을 갖는 과정

EDA가 중요한 이유
1.데이터의 문제를 발견할 수 있다
EDA를 하게 되면, 데이터 수집 및 전처리 과정에서 미처 발견하지 못했던 문제를 발견할 수 있습니다.

2.생각하지 못했던 패턴을 발견할 수 있다
실제 데이터를 수집해 펼쳐놓고 보면, 데이터 수집 전에 생각해보지 못했던 데이터 간의 패턴을 발견할 수 있습니다.

3.후속 작업이 수월해진다
본격적으로 데이터 분석에 돌입할 때 사용할 데이터 분석 도구를 선정하는 데 도움이 됩니다. 또한 추가 자료 수집 여부를 결정하는 속도도 빨라집니다.

다음은 데이터 전문가가 아니어도 간단하게 할 수 있는 EDA 5단계라고 한다...
1단계 : 데이터의 전체 그림 보기
EDA의 첫 번째 단계는 불러온 데이터를 시각적으로 펼쳐보는 것입니다. 마치 탐사를 하기 전에 지도를 펼쳐놓고 전체 지형을 파악하듯, 데이터도 한눈에 볼 수 있게 펼쳐봐야 합니다.

2단계 : 기초 통계 확인
기본적으로 떠올릴 수 있는 통계값들을 확인해봅니다. 평균(mean), 중앙값(median), 최대값/최소값(max/min), 분산/표준편차 등을 확인해볼 수 있습니다.이를 통해 대략적인 통계 분포를 확인하고, 데이터가 한쪽으로 치우쳐 있거나 튀는 값이 있지는 않은지 등을 확인합니다.

3단계 : 시각화 해보기
숫자로만 이루어진 표가 아니라, 그래프 등의 시각화 차트로 데이터를 펼쳐보는 방법입니다.데이터 분포를 펼쳐볼 수 있는 히스토그램, 범주형 데이터를 비교해보는 막대 그래프, 시간에 따른 변화를 볼 수 있는 선 그래프 등을 만들어봅니다.

4단계 : 이상치, 결측치 찾아보기
데이터를 탐색하다 보면 ‘어라, 왜 이렇게 값이 튈까?’ 하는 의문이 생기는 지점들이 눈에 보입니다. 이런 경우를 이상치(outlier)라고 합니다. 또한 데이터 값이 아예 누락된 결측치(missing value)도 발견할 수 있습니다. 예를 들어 조금이라도 숫자가 기록되어야 할 부분인데 아예 ‘0’으로 데이터 수집된 경우가 있거나, 반대로 과도하게 큰 숫자가 입력되어 있으면, 이는 이상치 또는 결측치일 가능성이 있으므로, EDA 단계에서 확인해봐야 합니다.

5단계 : 패턴, 관계 찾아보기
시각화 자료에서 데이터 간의 패턴, 관계를 찾아보는 단계입니다. 예를 들어 광고비를 많이 쓸수록 매출이 증가하는 패턴이 보인다면, 하나의 가설로 상정해둔 다음 후속 데이터 분석 작업에서 조금 더 면밀하게 가설을 검증해볼 수 있습니다.

거의 다 와가는 듯 했으나, 팀원 각자가 이해한 가설의 개념이 달랐다는 가장 큰 문제 발견...나는 후자를 하고 있었던 듯...

  • 데이터 분석 가설: 왜 유저가 이탈하는지 원인을 찾기 위한 가정
  • 해결방안 가설: 분석 결과를 바탕으로 한 마케팅/UX 전략 아이디어의 효과를 예측

결국 프로젝트 진행방법을 다시 복기 했다.

프로젝트 진행 방법

1. 분석 목표

  • 완독률에 영향을 주는 요인은 무엇인가?
  • 이탈하는 유저 vs 완독 유저의 차이는?

2. 데이터 전처리 & 시각화

  • 데이터 통합: 유저 정보 + 활동 정보 + 독서 상태 통합
  • 정제: 오타/형식 통일 (light, Lightlight)
  • 파생 변수: 나이, 요일, 시간대, 완독 여부, 진도 구간 등 생성
  • 결측치/이상치 처리: 누락/비정상 데이터 정리
  • 시각화: 진도율/이탈 사유/완독률 등 다양한 관점에서 분석

3. 분석 결과

  • 예: 추천 클릭한 유저는 완독률이 더 높음
  • 예: 자기계발 장르 중후반 이탈자, 이탈 사유는 ‘지루함’

4. 결론 & 가설

  • “추천 기능을 클릭한 유저는 완독률이 높을 것이다”
  • “중후반 이탈은 콘텐츠 몰입도 부족 때문일 수 있다”

5. 해결방안

  • 추천 콘텐츠에 예상 소요 시간/챕터 수 노출
  • 짧은 콘텐츠 큐레이션 제공 → 몰입 기대치 조정, 이탈 방지

6. 실험 설계

  • A/B 테스트: A = 기존 추천 / B = 소요 시간 표시 → 클릭률, 완독률 비교로 효과 검증

끝이 보이는 듯 하다..! 후..하...

profile
안녕하세요 백민입니다:)

0개의 댓글