250509 - 250522 TIL

수이·2025년 5월 26일

🟡 TIL

목록 보기
56/60
post-thumbnail

팀스터디

늦었지만 정리해보는 프로젝트 (이번에도 너무 힘들었음)

실전프로젝트

AARRR, 코호트, 퍼널 관련 분석을 해보고 싶다는 게 가장 큰 욕심이었고, 사용자 로그 데이터인 교육이나 마케팅을 하고싶었다! (마케팅은 있었는데요? 없어요)

그래서 결론적으로는 교육을 선택하고 전처리부터 숑숑 시작 👀

EDA

전처리

import & Load

결측치

결측치가 너무너무 많은 데이터 .. 😥

  • roles : 전체 결측 > drop
  • index : 말 그대로 인덱스 > drop
  • incomplete_flg : 상관관계 없음 > drop

  • n_* : 활동성지표 > 활동없음으로 간주하고 0으로 대체
  • last_event_DI : ndays_act기준으로 계산하여 대체

    • 0인 경우 start_time과 같은 날짜로 채우기
  • YoB : age 계산 > drop

    • start_time ~ last_event : 2012 ~ 2013이었기 때문에 2013 기준 계산
  • LoE_DI, age, gender, final_cc_cname_DI : incomplete_flag가 있는 걸 봐서는 사용자가 직접 입력하는 정보기 때문에 빌 수 있다고 생각함 > unknown으로 대체

  • grade : 공백 > 0 / na > 0 대체

이렇게 하고 컬럼명이 좀 직관적이지 못한 것 같아서 바꿔줬다

이상치

  • 출생년도보다 수강년도보다 나중

  • 마지막 활동이 시작보다 빠름

  • grade

    • 1.01 > 1.0으로 대체

    • 체계 이상

    • 수료했는데 성적 0

  • 학습 단계 (viewed ~ certified)

    • viewed X explored O

    • explored X certified O

    • viewed > certified

  • 활동량지표

    • nevnets < 0, ndays_act > 0

    • ndays_act = 0, nevents > 0

  • 2013년 기준 초등학생

    • 대학강의 기반이므로 초등학생은 들을 수 없다고 판단함

최종 drop

파생변수

  • status 생성(viewed~certified 통합)

  • age group

  • n_*_per_day

    • (n_*) / (ndays_act)

    • 분포 확인 시 확실히 이상치가 있어서 처리를 해줘야겠다고 생각했다

    • IQR

      upper bound가 각각 너무 낮아서, IQR은 적용할 수 없다고 생각했음

  • 상위 1% 제거

    • 이것도 chapter나 forum은 고유값인 것 같아 나머지 두 컬럼에만 적용하기로 함
  • course 관련

    • course_id > platform, course_id, course_year, course_season으로 분리

    • course_title 추가
      🔗 참고자료

  • repetition

  • country > region

최종 데이터

스케치

처음부터 나는 overview, course, info, segment 네 장으로 생각을 했었기 때문에 최종적으로는 이런 형태로 결정

내가 만든 시트

  • Big number

    • 총 등록자수, 총 viewed ~ certified 비율, 강좌수, 재수강자 수, 재수강률, 일일 활동량지표
  • TOP 5

    • 코스 수강인원, 수료율, 이탈률
  • scatter
    활동량 vs 성적 상관관계 > 비몰입군 vs 몰입군

요리조리 배치를 해보면

피그마

디자인을 입혀주기 위해 기존 그려본 스케치에 맞춰서 만들어주면 된다
기본 아이콘 에셋 활용하니까 편해서 좋았음

대시보드

PPT

이렇게 해서 마무리..~

피드백

  • 사용자별 니즈를 분리해서 파악하려는 점이 좋았고, 미리 설계 + 기획해서 만든 부분이 인상적

  • edx에 직접 들어가서 결측치나 이상치에 대해 파악하고 데이터를 이해하려는 노력이 좋았다 한수배웠다(ㅋㅋ)

  • 첫번째 대시보드에 수치가 이상한 걸 발견했다(?) explored에서 왜 갑자기 전환률 9.67%인지 모르겠음

    • 당황하기도 했고 무슨 말씀 하시는 건지 이해가 안 돼서 이때는 그냥 확인해보겠다고만 말씀 드렸는데, 다시 계산해보니까 이상이 없었당 . . 🥹

느낀점

  • 이번 프로젝트때도 역시 역할분담이 잘 안 된다는 느낌을 굉장히 많이 받았는데 .. 내가 팀장이 아니다 보니 적극적으로 개입할 수가 없어서 조금 답답한 부분이 있었다

  • 항상 내 의견에 대해 반박해줄 사람이 필요하다고 생각하는데(내가 항상 맞는 게 아니니까) 열심히 같이 해주신 민재님과 진태님께 너무너무 감사하다 ! 두 분이 아니었다면 난 죽었을지도 ..

  • 컨디션이나 건강관리도 어떻게 보면 실력인데 프로젝트 진행하는 도중에 몸 상태가 급격히 안 좋아져서 많은 아쉬움이 남는다

  • PPT 제작을 결국 내가 맡게 되었는데 능력 부족을 깨달았다 ... 누군가 기본 틀을 예쁘게 만들어주면, 거기에 디테일을 얹는 걸 잘 하는 것 같다고 느꼈음

1개의 댓글

comment-user-thumbnail
2025년 5월 28일

안돼 아프지 마세요 .... 절대 건 강 해 ......

답글 달기