Matrix Factorization (1) - Explicit/Implicit Feedback

vvakki_·2020년 8월 10일
1

Recommendation System

목록 보기
2/5
post-thumbnail

Introduction

Collaborative Filtering 방법론 중 하나인 Matrix Factorization에 대해 소개를 하려다보니, Explicit/Implicit Feedback에 대한 설명이 먼저 필요한 것 같습니다. Explicit/Implicit Feedback은 Collaborative Filtering에서 사용되는 데이터인 User-Item Matrix의 데이터 종류입니다.


Explicit Feedback

Explicit Feedback이란, 유저가 직접 아이템에 대한 선호도를 표현한 데이터입니다.

예를 들면, Watch나 네이버 영화에서는 유저가 선택하는 0~10(또는 0~5)척도의 영화 평점 시스템이 있고, Netflix의 경우 "좋아요/싫어요"로 영화를 평가할 수 있습니다.

  • 장점 : 유저 선호도의 직접적인 정보를 획득
  • 단점 : 데이터를 구하기 어려움. 유저가 직접 평가를 하지 않는 이상, 구할 수 없음

Implicit Feedback

Implicit Feedback이란, 유저의 선호도를 간접적으로 유추하는 데이터입니다. Explicit Feedback이 데이터 품질 관점에서 매우 좋은 건 사실이지만, 데이터 수집이 어렵기 때문에 Implicit Feedback를 활용한 연구가 활발히 진행되고 있습니다.

온라인 쇼핑몰에서의 제품 구매 경험, 검색 경험, 검색 패턴 또는 마우스 행동들이 Implicit Feedback에 포함됩니다. 이러한 대체 데이터들은 유저 선호도와 연관이 있을 것이라는 가정을 내포하고 있습니다. 예를 들면, "원하는 상품의 페이지에서는 마우스 움직임이 많을 것이고 관심 없는 상품의 페이지에서는 별다른 행동 없이 페이지를 넘길 것이다."라는 가정을 하는 것입니다.

  • 장점 : 유저의 평점 행동 없이, 데이터 획득 가능

  • 단점 1 : 부정적인 피드백의 부재(No negative feedback) - 해당 아이템에 대한 부정적인 행동을 추론하기란 어렵습니다. 예를 들면, 유저 A가 Item 1을 구매하지 않았는데, 선호하지 않아서 사지 않은 것인지, 상품을 알지 못했기 때문에 구매를 하지 않은 것인지, 모호함이 있습니다.
    반면, Explicit Feedback은 비선호를 나타내는 수치가 내포되어 있기 때문에, missing data보다는 주어진 데이터에 집중할 수 있습니다. 하지만, Implicit Feedback 데이터를 다룰 때에는, 관찰되지 않는 데이터에 비선호 정보를 포함할 가능성이 있기 때문에, missing data도 모델링에 포함해야 합니다.

  • 단점 2 : 노이즈(Implicit feedback is inherently noisy) - 유저 행동에 대한 정확한 동기를 알 수 없습니다. 유저 A가 Item 1을 구매한 내역이 선호해서 구매했을 수도 있지만, 선물 용도로 샀을 수도 있고, 구매 후 실망을 했을지도 모릅니다.

  • 단점 3 : Explicit Feedback의 숫자 값은 선호도를 나타내지만, Implicit Feedback에서는 신뢰도를 나타냅니다.(The numerical value of explicit feedback indicates preference, whereas the numerical value of implicit feedback indicates confidence) 다시 말해, Explicit Feedback에서는 수치가 클수록 높은 선호도를 나타내지만, Implicit Feedback에서는 항상 그렇지만은 않습니다. 유저 A가 온라인 쇼핑몰에 오래 머물러있었지만, 정말 온라인 쇼핑몰이 좋아서 그런 것인지, 잠시 자리를 비운 상태인지, 선호도를 나타내지는 않습니다. 하지만, 온라인 쇼핑몰에 반복적으로 접속을 한 이벤트가 있다면 유저의 의견이 반영된 것일지도 모릅니다.

  • 단점 4 : Implicit Feedback 기반 추천시스템의 적절한 평가 척도 필요(Evaluation of implicit-feedback recommender requires
    appropriate measures)
    Implicit Feedback은 ground truth가 없기 때문에 평가 척도에 대한 고민이 필요합니다. 또한, Item 이용 가능성, 다른 Item과의 경쟁, 반복되는 feedback을 고려해야 합니다. 예를 들면, 영화 2개가 동시간에 상영이 된다고 하면, 유저 A가 두 영화를 모두 선호할지라도 한쪽만 선택할 수 있기 때문에 Implicit Feedback 데이터에 나머지 다른 영화에 대한 정보는 남을 수 없습니다.


Reference

Hu, Y., Koren, Y., & Volinsky, C. (2008, December). Collaborative filtering for implicit feedback datasets. In 2008 Eighth IEEE International Conference on Data Mining (pp. 263-272). Ieee.

profile
하고 싶은 것이 많기에, 앞으로 할 수 있는 일들이 더 많은 Data Scientist

0개의 댓글