RecSys - CBF

이희진·2022년 7월 19일
0

콘텐츠 기반 필터링

아이템에 대한 사용자 개인의 데이터를 이용해 과거에 사용자가 좋아했던 아이템과 비슷한 유형의 아이템을 추천하는 시스템 → 유사성을 무엇으로 파악하고 어떻게 계산하는지가 핵심

  1. 아이템의 특징을 추출하여 벡터로 표현한다.
  2. 벡터끼리의 유사도를 비교한다.
    • 코사인 유사도(Cosine Similarity): 두 점 사이의 각도를 측정한 지표로, 값이 작으면 두 데이터가 가까이 있다 = 유사하다는 의미입니다.
    • 유클리드 거리(Euclidean Distance): 두 점 사이의 거리를 측정한 지표로, 값이 작으면 두 데이터가 가까이 있다 = 유사하다는 의미입니다.
    • 맨하탄 거리(Manhattan Distance): 두 점 사이의 거리를 측정하되, 수평-수직으로만 이동하는 거리를 구합니다.
  3. k-근접이웃 알고리즘, DBSCAN과 같은 군집화 알고리즘을 적용, 유사도가 높은 아이템을 추천한다.

장점

1. 다른 유저의 데이터가 필요하지 않다. →Cold-Start Problem, Sparsity Problem
2. 개인의 독특한 취향을 고려한 추천이 가능하다.
3. 새로운 아이템이나 대중적이지 않은 아이템도 추천할 수 있다. → 협업 필터링은 아무도 평가하지 않은 Item은 추천할 수 없는 No first-rater problem 문제가 있다.
4. 사용자에게 추천하는 이유에 대한 설명이 가능하다.

단점

1. Feature를 뽑아내기 어려운 데이터들이 존재한다. (음악처럼 종류가 다양하거나, 이미지처럼 공통된 특징을 뽑아내기 어려운 데이터 형식)
2. 처음 유입된 유저에 대해서는 추천할 수 없다.

0개의 댓글