데이터 과학 - 7(Collaborative Filtering)

Collaborative Filtering(별점 예측)
방법
- Collaborative Filtering
- Latent Factor Model
Item-Item Collaborative Filtering
- 비슷한 아이템(드라마)에 별점을 몇점을 주었는지가 핵심 아이디어
- 방법 1 : 비슷한 아이템의 평균을 사용
- 방법 2 : 비슷한 아이템을 유사도를 사용해서 찾음 -> 더 유사한 아이템에 가중치를 줘서 평균내기

- 0.7x0.45 + 0.4x5.0/ 0.7+0.4
- N이 2일때 평점 예측하기

- 순서
- N이 2이기 떄문에 터널(a)와 비슷한 드라마 2개를 구함 -> 시그널, 보이스
- 0.41 x 2 + 0.59 x 3 / 0.41 + 0.59 = 2.6

- 유사도는 이전의 코사인, 자카드 유사도등의 방법을 사용
User-User Collaborative Filtering
- 한 유저마다 한 백터로 생각

- a의 평점을 메겼던 B,D,G,J,L과 H와의 유사도를 검사
- 가장 유사한 사람 2명(N)을 구하고 그 사람이 a(터널)에 준 별점을 사용
- 이론상 Item-Item, User-User는 동일한 정확도를 가짐
- 하지만 실제로는 item, item이 더 좋은 성능을 보임
- user는 일관적인 평가를 안할 가능성이 높음
Collaborative Fitering 장,단점
Hybrid Method
- 내용 기반 추천 방법(Content-based method)와 Collaborative Filtering을 함께사용
- 새로운 아이템을 추천할땐
- 줄거리, 출연진, 키워드등 item profile을 사용
- 새로운 사용자
- 둘 이상의 추천시스템을 구현하고 그것들을 통합
- ex) global baseline + collaborative filtering
Global Baseline Estimate
- 이미 높은 평점을 받은 드라마에는 나도 높은 평점을 줄것이다, 내가 깐깐한편이면 평균보다 조금 낮게 평점을 줄것이다라는 아이디어를 사용
- ex) 원준이가 드라마 이두나를 보고 매길 평점을 예측
- 원준이가 이두나와 비슷한 드라마를 본적이 없어 collaborative필터링을 사용 불가능
- global baseline estimate사용
- 전체 드라마의 평점 평균 : 3.7(이거만 있으면 원준이도 이두나에 3.7을 줄것이다라고 예측)
- 이두나의 평점 평균 : 4.2(전체 평균보다 0.5점 높음)
- 원준이가 매긴 전체 드라마의 평점 평균 : 3.5(전체 평균보다 0.2낮음)
- 기본 점수(global baseline) : 3.7+0.5+0.2 -> 4.0
global baseline + collaborative
- 위에서 구한 기본 평점 4.0을 CF(collaborative Filltering)에 사용

