데이터 과학 - 7(Collaborative Filtering)

박승현·2023년 11월 1일
0

데이터과학

목록 보기
8/12
post-thumbnail

Collaborative Filtering(별점 예측)


방법

  • Collaborative Filtering
    • Item-Item
    • User-User
  • Latent Factor Model

Item-Item Collaborative Filtering

  • 비슷한 아이템(드라마)에 별점을 몇점을 주었는지가 핵심 아이디어
  • 방법 1 : 비슷한 아이템의 평균을 사용
  • 방법 2 : 비슷한 아이템을 유사도를 사용해서 찾음 -> 더 유사한 아이템에 가중치를 줘서 평균내기
    • 0.7x0.45 + 0.4x5.0/ 0.7+0.4
  • N이 2일때 평점 예측하기
  • 순서
    • N이 2이기 떄문에 터널(a)와 비슷한 드라마 2개를 구함 -> 시그널, 보이스
    • 0.41 x 2 + 0.59 x 3 / 0.41 + 0.59 = 2.6
  • 유사도는 이전의 코사인, 자카드 유사도등의 방법을 사용

User-User Collaborative Filtering

  • 한 유저마다 한 백터로 생각
  • a의 평점을 메겼던 B,D,G,J,L과 H와의 유사도를 검사
  • 가장 유사한 사람 2명(N)을 구하고 그 사람이 a(터널)에 준 별점을 사용
  • 이론상 Item-Item, User-User는 동일한 정확도를 가짐
  • 하지만 실제로는 item, item이 더 좋은 성능을 보임
    • user는 일관적인 평가를 안할 가능성이 높음

Collaborative Fitering 장,단점


Hybrid Method

  • 내용 기반 추천 방법(Content-based method)와 Collaborative Filtering을 함께사용
    • 새로운 아이템을 추천할땐
      • 줄거리, 출연진, 키워드등 item profile을 사용
    • 새로운 사용자
      • 전반적으로 인기가 좋은 item을 추천
  • 둘 이상의 추천시스템을 구현하고 그것들을 통합
    • ex) global baseline + collaborative filtering

Global Baseline Estimate

  • 이미 높은 평점을 받은 드라마에는 나도 높은 평점을 줄것이다, 내가 깐깐한편이면 평균보다 조금 낮게 평점을 줄것이다라는 아이디어를 사용
  • ex) 원준이가 드라마 이두나를 보고 매길 평점을 예측
    • 원준이가 이두나와 비슷한 드라마를 본적이 없어 collaborative필터링을 사용 불가능
  • global baseline estimate사용
    • 전체 드라마의 평점 평균 : 3.7(이거만 있으면 원준이도 이두나에 3.7을 줄것이다라고 예측)
    • 이두나의 평점 평균 : 4.2(전체 평균보다 0.5점 높음)
    • 원준이가 매긴 전체 드라마의 평점 평균 : 3.5(전체 평균보다 0.2낮음)
    • 기본 점수(global baseline) : 3.7+0.5+0.2 -> 4.0

global baseline + collaborative

  • 위에서 구한 기본 평점 4.0을 CF(collaborative Filltering)에 사용

profile
KMU SW

0개의 댓글

관련 채용 정보