24.04.01 TIL

예진·2024년 4월 1일
0

TIL

목록 보기
59/68

이제야 좀 정리가 된 것 같았는데, 결국 프로젝트를 엎고 새로 하기로.
부랴부랴 데이터셋 찾고 기획서 작성했다.


왜 갑자기 애니메이션이냐면,, 데이터가 맛도리이기 때문 ^ㅁ^
사이즈 크고 정리 잘 되어있고, 전처리할 거 적당히 있고,
무엇보다 분석 과정에서 여러 갈래로 뻗어나가기 좋아보인다.

최종 프로젝트 기획서

애니메이션 OTT 활성화를 위한 고객 맞춤형 추천 알고리즘 개발

개요


  • 애니메이션과 고객 데이터를 활용해 시청자 선호도를 탐색하고 컨텐츠의 트렌드를 확인한다.
  • 컨텐츠와 고객에 대해 상세한 통계를 시각화한다.
  • 작품 별 인기도에 따라 등급을 분류한다.
  • 위의 과정을 거쳐 개인 맞춤형 추천 시스템(Personal Recommendation Algorithm)을 개발한다.

배경


  • OTT 사이트의 인기 컨텐츠 중 하나로 자리잡은 애니메이션, 그러나 컨텐츠의 인기에 비해 컨텐츠를 사용하는 고객의 편의성은 좋지 않다. 신규 고객 유치와 기존 고객의 충성도를 높이기 위해, 고객 맞춤형 추천 시스템을 개발하고자 한다.

주제


  • 머신러닝과 딥러닝 기법을 활용한 다양한 추천 알고리즘을 비교 분석하여 OTT 내 애니메이션 개인 맞춤형 추천 시스템 구축
  • 애니메이션 OTT 플랫폼 사용자의 선호도와 행동 데이터를 활용한 고객 세분화 및 특성 분석

설명


  • 유사도 분석을 통해 비슷한 고객 관심사의 패턴을 발견 가능.
  • 사용자 기반 협업 필터링(userbased collaborative filltering)을 활용하여 추천 시스템 개발
  • 태블로를 이용한 고객 및 컨텐츠 통계 대시보드 작성

데이터 예시


  • Kaggle Anime Dataset 2023
    https://www.kaggle.com/datasets/dbdmobile/myanimelist-dataset/code

  • anime dataset 2023

    • anime_id: 각 애니메이션의 고유 ID.
    • Name: 원래 언어로 된 애니메이션의 이름.
    • English name: 애니메이션의 영어 이름.
    • Other name: 애니메이션의 기본 이름 또는 제목(일본어, 중국어 또는 한국어로 가능).
    • Score: 애니메이션에 주어진 점수 또는 등급.
    • Genres: 쉼표로 구분된 애니메이션의 장르.
    • Synopsis: 애니메이션의 줄거리에 대한 간략한 설명 또는 요약.
    • Type: 애니메이션의 종류 (예: TV 시리즈, 영화, OVA 등).
    • Episodes: 애니메이션의 에피소드 수.
    • Aired: 애니메이션이 방영된 날짜.
    • Premiered: 애니메이션이 초연된 계절과 해.
    • Status: 애니메이션의 상태(예: 방영 완료, 현재 방영 등).
    • Producers: 애니메이션의 제작사 또는 제작자.
    • Licensors: 애니메이션의 라이선스 제공자 (예: 스트리밍 플랫폼).
    • Studios: 애니메이션을 작업한 애니메이션 스튜디오.
    • Source: 애니메이션의 소스 자료(예: 만화, 가벼운 소설, 원본).
    • Duration: 각 에피소드의 지속 시간.
    • Rating: 애니메이션의 연령 등급.
    • Rank: 인기나 다른 기준에 따른 애니메이션의 순위.
    • Popularity: 애니메이션의 인기 순위.
    • Favorites: 애니메이션이 사용자가 가장 좋아하는 것으로 표시된 횟수.
    • Scored By: 애니메이션을 득점한 사용자 수.
    • Members: 플랫폼에서 애니메이션을 목록에 추가한 회원의 수.
    • Image URL: 애니메이션 이미지나 포스터의 URL.
  • users details 2023

    • Mal ID: 각 사용자의 고유 ID.
    • Username: 사용자의 사용자 이름.
    • Gender: 사용자의 성별.
    • Birthday: 사용자의 생일 (ISO 형식).
    • Location: 사용자의 위치 또는 국가.
    • Joined: 사용자가 플랫폼에 가입한 날짜 (ISO 형식).
    • Days Watched: 사용자가 애니메이션을 시청한 총 일수.
    • Mean Score: 사용자가 본 애니메이션에 부여한 평균 점수.
    • Watching: 현재 사용자가 시청하고 있는 애니메이션의 수.
    • Completed: 사용자가 완료한 애니메이션의 수.
    • On Hold: 사용자가 보류 중인 애니메이션의 수.
    • Dropped: 사용자가 떨어뜨린 애니메이션의 수.
    • Plan to Watch: 사용자가 미래에 볼 계획인 애니메이션의 수.
    • Total Entries: 사용자 목록에 있는 애니메이션 항목의 총 수.
    • Rewatched: 사용자가 다시 본 애니메이션의 수.
    • Episodes Watched: 사용자가 시청한 총 에피소드 수.
  • users score 2023

    • user_id: 각 사용자의 고유 ID.
    • Username: 사용자의 사용자 이름.
    • anime_id: 각 애니메이션의 고유 ID.
    • Anime Title: 애니메이션의 제목.
    • rating: 사용자가 애니메이션에 부여한 등급.
  • 외 3개 데이터.

    • use_filtered
    • anime_filtered
    • final_animedataset
profile
Data Analysis / 맨 땅에 헤딩

0개의 댓글