데이터 과학 - 7(Collaborative Filtering)

박승현·2023년 11월 1일

0

데이터과학

목록 보기

8/12

Collaborative Filtering(별점 예측)

방법

Collaborative Filtering
- Item-Item
- User-User
Latent Factor Model

Item-Item Collaborative Filtering

비슷한 아이템(드라마)에 별점을 몇점을 주었는지가 핵심 아이디어
방법 1 : 비슷한 아이템의 평균을 사용
방법 2 : 비슷한 아이템을 유사도를 사용해서 찾음 -> 더 유사한 아이템에 가중치를 줘서 평균내기
- 0.7x0.45 + 0.4x5.0/ 0.7+0.4
N이 2일때 평점 예측하기
순서
- N이 2이기 떄문에 터널(a)와 비슷한 드라마 2개를 구함 -> 시그널, 보이스
- 0.41 x 2 + 0.59 x 3 / 0.41 + 0.59 = 2.6
유사도는 이전의 코사인, 자카드 유사도등의 방법을 사용

User-User Collaborative Filtering

한 유저마다 한 백터로 생각
a의 평점을 메겼던 B,D,G,J,L과 H와의 유사도를 검사
가장 유사한 사람 2명(N)을 구하고 그 사람이 a(터널)에 준 별점을 사용
이론상 Item-Item, User-User는 동일한 정확도를 가짐
하지만 실제로는 item, item이 더 좋은 성능을 보임
- user는 일관적인 평가를 안할 가능성이 높음

Collaborative Fitering 장,단점

Hybrid Method

내용 기반 추천 방법(Content-based method)와 Collaborative Filtering을 함께사용
- 새로운 아이템을 추천할땐
  - 줄거리, 출연진, 키워드등 item profile을 사용
- 새로운 사용자
  - 전반적으로 인기가 좋은 item을 추천
둘 이상의 추천시스템을 구현하고 그것들을 통합
- ex) global baseline + collaborative filtering

Global Baseline Estimate

이미 높은 평점을 받은 드라마에는 나도 높은 평점을 줄것이다, 내가 깐깐한편이면 평균보다 조금 낮게 평점을 줄것이다라는 아이디어를 사용
ex) 원준이가 드라마 이두나를 보고 매길 평점을 예측
- 원준이가 이두나와 비슷한 드라마를 본적이 없어 collaborative필터링을 사용 불가능
global baseline estimate사용
- 전체 드라마의 평점 평균 : 3.7(이거만 있으면 원준이도 이두나에 3.7을 줄것이다라고 예측)
- 이두나의 평점 평균 : 4.2(전체 평균보다 0.5점 높음)
- 원준이가 매긴 전체 드라마의 평점 평균 : 3.5(전체 평균보다 0.2낮음)
- 기본 점수(global baseline) : 3.7+0.5+0.2 -> 4.0

global baseline + collaborative

위에서 구한 기본 평점 4.0을 CF(collaborative Filltering)에 사용

KMU SW

이전 포스트

데이터 과학 - 6(Similarity)

다음 포스트

데이터 과학 - 8(Latent Factor Model)

0개의 댓글

관련 채용 정보