늦었지만 정리해보는 프로젝트 (이번에도 너무 힘들었음)
AARRR, 코호트, 퍼널 관련 분석을 해보고 싶다는 게 가장 큰 욕심이었고, 사용자 로그 데이터인 교육이나 마케팅을 하고싶었다! (마케팅은 있었는데요? 없어요)
그래서 결론적으로는 교육을 선택하고 전처리부터 숑숑 시작 👀






결측치가 너무너무 많은 데이터 .. 😥


last_event_DI : ndays_act기준으로 계산하여 대체

YoB : age 계산 > drop

LoE_DI, age, gender, final_cc_cname_DI : incomplete_flag가 있는 걸 봐서는 사용자가 직접 입력하는 정보기 때문에 빌 수 있다고 생각함 > unknown으로 대체


grade : 공백 > 0 / na > 0 대체

이렇게 하고 컬럼명이 좀 직관적이지 못한 것 같아서 바꿔줬다

출생년도보다 수강년도보다 나중

마지막 활동이 시작보다 빠름

grade
1.01 > 1.0으로 대체

체계 이상

수료했는데 성적 0

학습 단계 (viewed ~ certified)
viewed X explored O

explored X certified O

viewed > certified

활동량지표
nevnets < 0, ndays_act > 0

ndays_act = 0, nevents > 0

2013년 기준 초등학생


status 생성(viewed~certified 통합)

age group

n_*_per_day
(n_*) / (ndays_act)

분포 확인 시 확실히 이상치가 있어서 처리를 해줘야겠다고 생각했다


IQR

upper bound가 각각 너무 낮아서, IQR은 적용할 수 없다고 생각했음
상위 1% 제거

course 관련
course_id > platform, course_id, course_year, course_season으로 분리

course_title 추가
🔗 참고자료

repetition

country > region




처음부터 나는 overview, course, info, segment 네 장으로 생각을 했었기 때문에 최종적으로는 이런 형태로 결정


Big number

TOP 5

scatter
활동량 vs 성적 상관관계 > 비몰입군 vs 몰입군

요리조리 배치를 해보면




디자인을 입혀주기 위해 기존 그려본 스케치에 맞춰서 만들어주면 된다
기본 아이콘 에셋 활용하니까 편해서 좋았음










이렇게 해서 마무리..~
사용자별 니즈를 분리해서 파악하려는 점이 좋았고, 미리 설계 + 기획해서 만든 부분이 인상적
edx에 직접 들어가서 결측치나 이상치에 대해 파악하고 데이터를 이해하려는 노력이 좋았다 한수배웠다(ㅋㅋ)
첫번째 대시보드에 수치가 이상한 걸 발견했다(?) explored에서 왜 갑자기 전환률 9.67%인지 모르겠음
이번 프로젝트때도 역시 역할분담이 잘 안 된다는 느낌을 굉장히 많이 받았는데 .. 내가 팀장이 아니다 보니 적극적으로 개입할 수가 없어서 조금 답답한 부분이 있었다
항상 내 의견에 대해 반박해줄 사람이 필요하다고 생각하는데(내가 항상 맞는 게 아니니까) 열심히 같이 해주신 민재님과 진태님께 너무너무 감사하다 ! 두 분이 아니었다면 난 죽었을지도 ..
컨디션이나 건강관리도 어떻게 보면 실력인데 프로젝트 진행하는 도중에 몸 상태가 급격히 안 좋아져서 많은 아쉬움이 남는다
PPT 제작을 결국 내가 맡게 되었는데 능력 부족을 깨달았다 ... 누군가 기본 틀을 예쁘게 만들어주면, 거기에 디테일을 얹는 걸 잘 하는 것 같다고 느꼈음
안돼
아프지 마세요 .... 절대 건 강 해 ......