250114 TIL #589 AI Tech #121 P: EDA 진행 - 2

김춘복·2025년 1월 14일
0

TIL : Today I Learned

목록 보기
591/604

Today I Learned

오늘도 EDA 진행!


EDA

2020 데이터셋의 유저당 rating 수

  • 코드
rating = pd.read_csv('./dataset/2020/animelist.csv')
user_rating_counts = rating.groupby('user_id').size()
  • describe
count    325770.000000
mean        335.281785
std         425.411070
min           1.000000
25%          96.000000
50%         224.000000
75%         436.000000
max       17546.000000
dtype: float64
  • 전체 분포
  • 리뷰 수 1500개까지 분포
  • 리뷰 수 30개 까지 분포
1     2892
2     1996
3     1673
4     1594
5     1451
6     1390
7     1295
8     1118
9     1123
10    1134
11    1003
12     937
13     991
14     916
15     842
16     857
17     924
18     848
19     866
20     900
21     827
22     851
23     808
24     818
25     827
26     793
27     780
28     817
29     832
30     819

anime 결측치 분석

  • 전반적으로 빈 셀은 없음. 다만 빈 셀을 'Unknown'으로 채움
  • Score와 Rank가 int64가 아니라 Object로 되어있고, Unknown으로 된 데이터가 꽤 있음
Number of 'Unknown' in Score: 5141
Number of 'Unknown' in Ranked: 1762
  • 사이트 점수 계산 방식이 일반적인 방식과 다름.
  • 가중평균 방식을 사용해서 평가자가 적으면 전체 평균에 가까워지고, 평가자가 많아질수록 원래 자신의 평균에 가까워짐
Weighted Score = (v / (v + m)) * S + (m / (v + m)) * C
S = Average score for the anime/manga
v = Number users giving a score for the anime/manga †
m = Minimum number of scored users required to get a calculated score
C = The mean score across the entire Anime/Manga database
  • 3372번 RGB_Adventure애니를 보면 평가 수가 79개라 그런지 N/A로 뜨는데 추정으로는 평가수 100개 미만의 경우가 N/A로 떠서 Unknown이 된 것으로 추정
  • 대체로 members의 수가 많으면 score가 높음
  • Score와 다른 숫자 열간의 corr을 보면 Popularity와 강한 역의 상관관계, 볼 계획, members, completed와의 상관관계도 강함.
Score            1.000000
Plan to Watch    0.474240
Members          0.405921
Completed        0.369944
On-Hold          0.323513
Dropped          0.248030
Favorites        0.244488
Watching         0.242723
MAL_ID          -0.073205
Popularity      -0.694536
Name: Score, dtype: float64
  • Ranked : 평점(Score)이 높은순으로 내림차순 정렬
  • Popularity : Member수를 기준으로 내림차순 정렬
진격의 거인 : Score 8.55 Ranked #120 Popularity #1 Members 4,091,374
나의 히어로 아카데미아 : Score 7.84 Ranked #951Popularity #7Members 3,125,655
장송의 프리렌 : Score 9.31 Ranked #1Popularity #171Members 995,965
  • rating(animelist.csv) 데이터에서 rating 0을 제외한 전체 평균 점수와 표준편차
Average rating (excluding 0): 7.431960421882136
Standard deviation of rating (excluding 0): 1.766560227718782
  • rating에서 watching_status의 수 (1:보는중, 2:다봄, 3: 일시중단, 4: 포기, 6: 볼 계획)
    0,5,33,55같은 이상치 제거해야
watching_status
2     68089751
6     27938693
1      5228658
4      4266591
3      3700514
0          531
5            6
33           2
55           1
  • watching_status 별 평균 점수와 표준편차
    Dropped에서 평균 점수의 큰 하락이 있음.
  • synopsis 결측치는 명시적으로는 8개이지만, "No synopsis information has been added to this~"로 시작하는 사실상 결측치는 709개가 존재함.
profile
Backend Dev / Data Engineer

0개의 댓글