2024-05-24

강대·2024년 5월 24일
post-thumbnail

안녕하세요 ~!
드디어 프로젝트가 끝나고 적는 TIL입니닷

오늘 할 일을 모두 마치고
느긋하게 TIL 적고 진짜 편히 쉬어보겠습니다
😋😇




오전에는 코드카타 풀고
오전 스크럼 때 다시 팀원들과 피피티 점검하면서
최종레알진짜_찐막.pptx 수정하고 !

조금 집중이 안돼서 카페가서
밀린 파이썬 복습을 했구요

대망의 기초 프로젝트를 오후 7시에 시작해서 9시에 끝냈답니다 !!



저희조 발표가 끝나고 튜터님께서 말씀해주신 소감(?)은


1️⃣ 모든 시각화 자료에 X축과 Y축 레이블을 달아준 점

지나칠 수 있던 부분이었는데
다 신경써줘서 좋았다고 말씀해주셨고요


2️⃣ 상관관계 재검토 필요

저희는 유저의 나이가 어릴수록 프리미엄 구독률이 높다고 판단했는데요
이 부분에서 튜터님은 12-20세의 구독의사에 대해 다시 분석해볼 필요가 있다고 하셨습니다 🥲
사실 잠시 물건을 찾느라 이 피드백 건만 못 들었는데 내일 녹화본 올라오는대로 다시 검토해봐야겠습니다 !


3️⃣ 원-핫 인코딩(One-Hot Encoding)

저희가 고른 주제는 많은 팀들이 선택한 주제라
다른 팀원들은 어떻게 진행했을지 정말 궁금했는데요

다들 정말 ... 잘 하셨더라구요 🥹
같은 데이터를 기반으로 다양한 인사이트를 도출해주셔서 놀라웠고
데이터 전처리를 할 때 원핫인코딩을 이용한 팀이 꽤 많아서 놀랐습니다..
저는 오늘 처음 알았습니다..


저희가 프로젝트에서 사용한 컬럼은 중복응답이 없는 칼럼이라 몰랐는데
다른 팀들은 여러 칼럼을 사용해서
아예 원핫인코딩으로 중복 응답도 전처리를 해서 거기서 인사이트를 도출한 팀들이 많더라구요



아주 살짝 가벼운 예시로 보여드리자면

import pandas as pd

# 예제 데이터프레임 생성
df = pd.DataFrame({
    '과일': ['사과', '바나나', '체리', '사과', '체리']
})

# 원핫인코딩 적용
df_onehot = pd.get_dummies(df, columns=['과일'], dtype=int)
df_onehot


과일_바나나	과일_사과	과일_체리
0	0	1	0
1	1	0	0
2	0	0	1
3	0	1	0
4	0	0	1

참고 링크 : https://wikidocs.net/22647


이런 식으로 중복응답한 범주형 값을 숫자로 표기하여
좀 더 데이터를 쉽게 다룰 수 있도록 하는 방법인 것 같습니다 !!



제가 인상 깊게 본 두 팀에서는

music-Influencial-mood
music-lis-frequency
칼럼을 이용해서 음악을 언제 자주듣는 지 판단하여

여행 갈 때 자주 듣는다는 응답이 많이 제출되어
VISIT이라는 이름으로 여행 프로모션을 제안하기도 하였고

운동할 때 자주 듣는다는 응답이 많아
건강, health를 기반으로 user segment를 하기도 하셨습니다 !

저는 생각지도 못한 방면에서
다양하게 인사이트를 도출해주셔서 실제로 마지막에 튜터님께선
다른 조에선 듣지 못했던 건강, health 유저를 설정한 점에서 칭찬해주셨습니다

진짜 다들 존경스럽습니다 🥹🥹🥹






오히려 같은 주제로 많은 팀들이 발표를 해주셔서
더 도움이 됐던 것 같습니다 !

데이터 전처리를 하는 방법부터 다르기도 하고
여러방면으로 데이터를 생각해볼 수 있던 프로젝트라서 배울 점이 참 많았구요

나중에 시간 여유가 된다면 한 팀 한 팀 다시 돌려보고
더 자세히 배워보고 싶네요 😊




오늘도 정말 다들 수고 많으셨습니다
저도 주말 잘 보내고 월요일에 또 뵙겠습니다 !

안뇽 🍀

profile
걍 달려

0개의 댓글