Today I Learned
이미 거의 2주동안 진행된 프로젝트에서 데이터셋을 변경해야 되는 일이 생겼다.
시간도 없는데 할게 너무 많다.. 설때는 못쉬지 않을까..
자세한 이슈는 내일 정리하고 프로젝트 집중하자!
23주차 주간학습정리
학습 정리로 월~금 동안 매일
복습, 과제, 피어세션, 회고 정리했고 아래 링크 달았습니다.
팀회고
MovieLens 20M 기초 분석
movies
- 컬럼 : movieId, title, genres(Adventure|Children|Fantasy)
- 영화 27278편 제목과 장르 정보
- year 생성. 연도 0인거 대체 해야됨
- 결측치는 없으나 genres에 '(no genres listed)' 246개를 'unknown' 같은걸로 대체할 필요 있음
ratings
- 컬럼 : userId, movieId, rating, timestamp
- 평점기록 20,000,263개 / 유저 138,493명 / 영화 26,744편
- 가장 오래된 시간 : 1995-01-09 11:46:44 (789652004), 가장 최근 시간 : 2015-03-31 06:40:02 (1427784002)
- rating에는 없고 movies에만 있는 영화 534편. (rating에만 있는 영화는 없음)
ratings - user
- 유저당 평균 144개, 중앙값 68개, 최대 9254개, 최소 20개 평점 등록
- 박스플롯 기준 1.5iqr 상한선은 335개. 상한선 초과하는 유저 13781명(전체 138493명 중 약 10%)
count 138493.000000
mean 144.413530
std 230.267257
min 20.000000
25% 35.000000
50% 68.000000
75% 155.000000
max 9254.000000
rating_count
20 4485
21 3104
22 2832
23 2641
25 2399
24 2365
26 2164
27 2016
28 2016
30 1934
ratings - movies
- 영화 당 평점은 평균 747개, 최대 67310개(펄프픽션), 최소 1개(3972편)
- 중간값이 18개, 하위 25퍼가 3개라서 아이템 콜드스타드가 더 심할지도? (10개이하 11665편, 5개이하 9225편, 3개이하 7370편)
count 26744.000000
mean 747.841123
std 3085.818268
min 1.000000
25% 3.000000
50% 18.000000
75% 205.000000
max 67310.000000
rating_count
1 3972
2 2043
3 1355
4 1029
5 826
6 647
7 574
8 462
9 385
10 372
- 컬럼 : userId, movieId, tag, timestamp
- 누가 어떤 영화에 태그 달았는지와 타임스탬프
- 총 row 465548, 결측치 16개, 태그 종류 38643개
- 태그 단 유저 7801명, 태그 달린 영화 19545편(안달린영화 7733편)
links
- 컬럼 : movieId, imdbId, tmdbId
- tmdbId에 결측치 252개
- movies와 모든 영화가 매칭됨
genome
genome-scores.csv
- 컬럼 : movieId, tagId, relevance
- 영화-태그 관련성 데이터를 포함. 각 영화당 1128개의 태그에 대해 연관성 수치(영화 10381편 x 태그 1128개)
- genome-scores에 없는 영화는 16897편
- 컬럼: tagId, tag
- genome 파일의 태그 ID에 대한 태그 내용