본격적으로 오늘부터 최종 프로젝트를 시작한다!
최종 프로젝트와 관련된 TIL은 제목에 P:와 태그로 project를 달아서 기록해두려 한다.
프로젝트 주제는 Cold Start 해결방법
프로젝트에 맞는 public 데이터셋을 찾는 일부터 시작했다.
추천시스템 연구의 표준 데이터셋으로, ACM RecSys Conference 논문의 40%가 사용
장점
데이터가 크기별로 다양하고, IMDB ID가 있어 아이템 정보를 크롤링해오기 편하다.
일부 데이터셋은 유저 정보도 포함되어 있다.
단점
영화 평점 사이트에서 직접 평가한 데이터이기 때문에 유저의 시청기록
은 아니다.
따라서 이 데이터로 어떤 영화를 다음에 시청할지에 대한 가설을 세우기에는 fit한 데이터는 아니다.
48만 사용자의 1억 개 이상의 평점 데이터 포함한 실제 데이터
장점
실제 넷플릭스에서 서비스 되었던 평점 기록데이터
단점
아이템 메타 데이터가 없이 title만 있다.
그리고 2009년 소송으로 인해 현재 이 데이터를 써도 되는지에 대해 명확한 가이드라인이 없어 pass
1996년부터 2023년까지의 아마존 리뷰 데이터
장점
2023 최신 데이터도 있고, 다양한 카테고리(music, sport, movie)의 제품이 있다.
리뷰 텍스트와 메타데이터도 풍부하다.
단점
유저와 아이템이 너무 많아 computing power가 많이 필요하다.
유저와 아이템 수에 비해 리뷰 수가 적어 sparsity가 매우 높다.
Microsoft News의 실제 뉴스 로그 데이터셋
장점
사용자 100만, 아이템(뉴스) 16만, 상호작용 1500만으로 많고,
클릭 로그와 뉴스 아이템 데이터가 풍부하다
단점
뉴스라는 도메인이 시의성이 매우 중요하고 일반적인 데이터와 달라 general한 모델의 적용이 어렵다. 데이터 셋에서 knowledge graph 기반의 임베딩도 주기 때문에 도메인에 대한 이해가 필요하다.
유저 - 음악 상호작용 데이터셋
장점
음악 관련 Side Info가 많고 이미 처리가 되어 있음.
오디오 자체 분석 뿐만 아니라 가사의 감정적 내용 통계나 장르의 tf-idf 등 다양한 분석이 되어있음. 사용자와 음악 간의 상호작용과 timestamp도 제공
단점
사이즈 매우 큼 (약 2억 5천만 개의 interaction; 압축파일이 2.2GB)
많은 데이터를 제공하지만 이를 활용하려면 도메인 지식이 필요해 보임
amazon에서 운영하는 책 리뷰 사이트의 데이터
장점
자세한 리뷰가 매겨져있고 아이템의 속성도 풍부함
단점
책이 워낙 많아서 데이터셋이 너무 크고, sparsity가 높음
영어권 애니메이션 평가 사이트 https://myanimelist.net/에서 제공되는 데이터셋
장점
유저, 아이템, 리뷰수가 프로젝트 기준에 맞고 적당함.
유저와 아이템에 대한 정보가 매우 자세하게 되어있음
유저의 평균 평점, 시청 상태(보는중, 포기, 다봄) 같은 구하기 힘든 데이터까지 보유
단점
시청기록이 아닌 평가데이터라는점 제외하고는 큰 단점이 없음
다만 general한 영화나 tv쇼가 아닌 애니메이션이라는 점에서 이 데이터셋을 적용한 모델이 과연 다른 영상 리뷰 데이터셋에서도 general할지는 의문.
관련 code는 많지만 paper화 된건 많이는 못본듯?
일단 anime dataset이 데이터 퀄리티가 가장 좋기 때문에 일단 EDA를 진행해보고 메인 데이터셋으로 활용하려고함. EDA 결과 결함이 있다면 MovieLens쪽으로 진행할 예정.