250324 TIL

수이·2025년 3월 24일

🟡 TIL

목록 보기
34/60

팀스터디

EDA

CLEAN한 데이터 뽑기

기준별 이상치 구하기

  • gameDuration이 5분(300초)보다 작은 값

  • lastRound가 10 이하인 데이터

  • rank가 1~8이 아닌 데이터

  • 리스트에 없는 콤비네이션이 있는 데이터

    • class 구하기

    • origin 구하기

  • 리스트에 없는 아이템이 있는 데이터

  • 리스트에 없는 챔피언이 있는 데이터

  • 이상한 인덱스 종합

  • 정상 인덱스 구하기

  • 정상 테이블 구하기

csv로 빼기

팀원들이 각자 맡은 티어 clean본을 뽑아서 나한테 주고, 나는 통합본을 받아서 z-score 구하기로 함

z-score

  • 통합 데이터로 z-score 뽑기

    • 기준 +-3 일 경우 정상적인 게임 플레이패턴이라 생각되는 데이터도 함께 나와서 -3 이하인 것만 뽑기로 했는데, 튜터님께서 한쪽으로만 잡는 것은 부적절하다는 의견을 주셔서 +-4로 잡기로 했음
  • 데이터 합치기

  • game duration 이상치 z-score

    • 최소값 최대값 출력
  • ingame duration 이상치 z-score

  • 분리해서 clean본 통합 뽑기

champion, combination 등장 빈도수 구하기

  • dict형으로 변환

  • 키값 한줄씩 풀어주기

  • 빈 값 확인

  • 제거 + 재확인

  • combination 빈도수 세기

    • Collection 라이브러리의 Counter를 사용해 봄

  • dataframe화

  • champion 빈도수 세기

    • dataframe화

  • 그래프 그리기(테스트)

일단 오늘은 여기까지..😂


일기

  • 프로젝트 EDA✅ 데이터추출✅

EDA 하는 과정도 쉽지 않았는데, 데이터 뽑아내는 것도 만만치가 않다 .... 데이터가 너무 더러운 것도 있고, 조합별 가짓수가 너무 많음

뭔가 아이디어가 안 떠오르고 .. 우선 오늘 이거 하는 데에도 시간이 이렇게 걸려서 빨리빨리 어떤 걸 뽑아야 할지 정리를 해야할 것 같다 😢

하고싶은 건 많은데 코드짤 능력이 부족해 .. 이게 맞나..

2개의 댓글

comment-user-thumbnail
2025년 3월 24일

대박대박 오늘도 고생했어요❣️🫶

1개의 답글