[추천 시스템] CF, CBF

Jewook·2022년 10월 10일

ML

목록 보기

3/4

아이템의 피처들을 추출해서 벡터화한 후, 아이템 간의 유사도를 계산한다.

sim(A,B) = $\| r_{A} \cap r_{A} \| / \| r_{A} \cup r_{B} \|$

실제 값을 보지 않고, 값이 동시에 존재하는 정도로 유사도를 판단.
계산이 간편하지만 실제 값을 고려하지 않기 때문에 직관적인 결과를 얻지 못할 수 있다.

물리적인 "방향"에 기반하여 유사도를 계산한다.
피쳐들이 label 값일 경우 성능이 좋다. 값의 크기가 의미를 갖는 경우에는 적절하지 않다.

물리적인 "거리"에 기반하여 유사도를 계산해준다.
하지만 scale에 민감하기 때문에 적절히 전처리를 해주어야 한다.

User Profiles를 만든다.

Item에서 정의한 feature에 대응되도록 만들어야 한다.
차원이 일치해야 내적을 통해 예측값을 구할 수 있기 때문이다.

예를들어 Item은 영화이고 배우가 A인지 B인지를 나타내는 피처 하나씩만 있다고 가정해보자.

Binary label)
영화의 시청 여부를 기록한다고 할 때, A가 나오는 영화는 2번 B가 나오는 영화는 3번 보았다고 하면 A feature에 대한 weight는 0.4, B는 0.6임을 알 수 있다.

Rating)
만약 평점을 부여하는 경우도 살펴보자. A가 나오는 영화에 3, 5점을 B가 나오는 영화에 각각 1,2,4점을 주었다고 하자.

우선 이 유저가 전체 부여한 평점의 평균 3으로 normalization을 우선 해주면
A : 0, 2
B : -2, -1, 1
이므로 A의 가중치는 1 B의 가중치는 -2/3 이라고 알 수 있다.

Make Prediction

item feature vector와 user profiles의 내적을 통해, 혹은 cosine 값을 통해 예측할 수 있다.

장점
다른 유저의 데이터가 필요 없다
특이한 성향(unique taste)를 갖는 유저에게도 추천이 가능
새로운 item에 대해서도 feature만 잘 정의하면 추천이 용이하다
단점
다른 유저들의 데이터로부터 도움을 받지 못한다.
feature를 정의하는 것 자체가 난관이다.
유저의 profile에만 국한되어 추천하게 될 수 있다.
새로운 "유저"에 대해서는 추천할 수 없다.