250110 TIL #586 AI Tech #118 P: RecSys Dataset 정리

김춘복·2025년 1월 10일
0

TIL : Today I Learned

목록 보기
588/604

Today I Learned

본격적으로 오늘부터 최종 프로젝트를 시작한다!
최종 프로젝트와 관련된 TIL은 제목에 P:와 태그로 project를 달아서 기록해두려 한다.
프로젝트 주제는 Cold Start 해결방법
프로젝트에 맞는 public 데이터셋을 찾는 일부터 시작했다.


RecSys Dataset 정리

MovieLens

  • 추천시스템 연구의 표준 데이터셋으로, ACM RecSys Conference 논문의 40%가 사용

  • 장점
    데이터가 크기별로 다양하고, IMDB ID가 있어 아이템 정보를 크롤링해오기 편하다.
    일부 데이터셋은 유저 정보도 포함되어 있다.

  • 단점
    영화 평점 사이트에서 직접 평가한 데이터이기 때문에 유저의 시청기록은 아니다.
    따라서 이 데이터로 어떤 영화를 다음에 시청할지에 대한 가설을 세우기에는 fit한 데이터는 아니다.

Netflix

  • 48만 사용자의 1억 개 이상의 평점 데이터 포함한 실제 데이터

  • 장점
    실제 넷플릭스에서 서비스 되었던 평점 기록데이터

  • 단점
    아이템 메타 데이터가 없이 title만 있다.
    그리고 2009년 소송으로 인해 현재 이 데이터를 써도 되는지에 대해 명확한 가이드라인이 없어 pass

Amazon

  • 1996년부터 2023년까지의 아마존 리뷰 데이터

  • 장점
    2023 최신 데이터도 있고, 다양한 카테고리(music, sport, movie)의 제품이 있다.
    리뷰 텍스트와 메타데이터도 풍부하다.

  • 단점
    유저와 아이템이 너무 많아 computing power가 많이 필요하다.
    유저와 아이템 수에 비해 리뷰 수가 적어 sparsity가 매우 높다.

MIND

  • Microsoft News의 실제 뉴스 로그 데이터셋

  • 장점
    사용자 100만, 아이템(뉴스) 16만, 상호작용 1500만으로 많고,
    클릭 로그와 뉴스 아이템 데이터가 풍부하다

  • 단점
    뉴스라는 도메인이 시의성이 매우 중요하고 일반적인 데이터와 달라 general한 모델의 적용이 어렵다. 데이터 셋에서 knowledge graph 기반의 임베딩도 주기 때문에 도메인에 대한 이해가 필요하다.

Music4All-Orion

  • 유저 - 음악 상호작용 데이터셋

  • 장점
    음악 관련 Side Info가 많고 이미 처리가 되어 있음.
    오디오 자체 분석 뿐만 아니라 가사의 감정적 내용 통계나 장르의 tf-idf 등 다양한 분석이 되어있음. 사용자와 음악 간의 상호작용과 timestamp도 제공

  • 단점
    사이즈 매우 큼 (약 2억 5천만 개의 interaction; 압축파일이 2.2GB)
    많은 데이터를 제공하지만 이를 활용하려면 도메인 지식이 필요해 보임

GoodRead

  • amazon에서 운영하는 책 리뷰 사이트의 데이터

  • 장점
    자세한 리뷰가 매겨져있고 아이템의 속성도 풍부함

  • 단점
    책이 워낙 많아서 데이터셋이 너무 크고, sparsity가 높음

Anime Dataset 2023

  • 영어권 애니메이션 평가 사이트 https://myanimelist.net/에서 제공되는 데이터셋

  • 장점
    유저, 아이템, 리뷰수가 프로젝트 기준에 맞고 적당함.
    유저와 아이템에 대한 정보가 매우 자세하게 되어있음
    유저의 평균 평점, 시청 상태(보는중, 포기, 다봄) 같은 구하기 힘든 데이터까지 보유

  • 단점
    시청기록이 아닌 평가데이터라는점 제외하고는 큰 단점이 없음
    다만 general한 영화나 tv쇼가 아닌 애니메이션이라는 점에서 이 데이터셋을 적용한 모델이 과연 다른 영상 리뷰 데이터셋에서도 general할지는 의문.
    관련 code는 많지만 paper화 된건 많이는 못본듯?


  • 데이터셋 선정

    일단 anime dataset이 데이터 퀄리티가 가장 좋기 때문에 일단 EDA를 진행해보고 메인 데이터셋으로 활용하려고함. EDA 결과 결함이 있다면 MovieLens쪽으로 진행할 예정.

profile
Backend Dev / Data Engineer

0개의 댓글