[Paper Review] Matrix Factoriztion

승민·2025년 9월 28일

본 글은 2009년에 발표된 Matrix Factorization Techniques for recommender systems를 읽고 요약 및 정리한 글입니다.

논문

MF 모델 코드 (GitHub)

MF Movielens100k 학습 코드 (GitHub)

1. 추천 시스템

온라인 시장이 되면서 유저들이 상품(ex. movies, music, TV shows and etc)을 선택할 수 있는 폭이 굉장히 넓어짐
적절한 상품을 고객에게 연결해주는 것이 서비스에 대한 만족감과 충성도를 강화하는 핵심

Explicit Feedback
- 상품에 대한 직접적 관심도
- 유저들은 가능한 상품에 대해 아주 적은 행동 데이터
- ex. star rating(Netflix), thumbs-up or thumbs-down(TiVo)
Implicit Feedback
- 상품에 대한 간접적 선호도
- 고객들의 행동 데이터를 관찰하여 좀 더 많은 데이터
- ex. purchase history, browsing history, search patterns, mouse movements

Matrix Factorization Model
Map: 고객과 상품을 동일한 $f$ 차원의 Latent Space
Model: user-item interaction를 inner product $\hat r_{u,i} = q_i^\top p_u \tag{1} \quad where \quad q_i \in \mathbb{R}^f, \quad p_u \in \mathbb{R}^f$

$q_i$ 는 item에 대한 latent factor, $p_u$ 는 user에 대한 latent factor
추천 시스템은 이 수식을 이용해 유저가 어떤 아이템에 어떤 점수를 줄지 예상할 수 있다
학습전략
- 위의 수식 (1)은 SVD와 매우 관련
- 전통적인 SVD는 missing value가 많은 matrix를 해결할 수 없음
- observed rating만 이용하되 regularized squared error를 이용하여 overfitting을 피함(Generalization)

\min_{p_*, q_*} \sum_{(u,i)\in\kappa} \big(r_{ui} - q_i^\top p_u \big)^2 + \lambda \left( \|q_i\|^2 + \|p_u\|^2\right) \tag{2}

where

\kappa = \{(u,i)\ |\ r_{ui} \text{ is observed}\}

SGD(Stochastoc Gradient Descent)
$e_{ui} = r_{ui} - \hat r_{ui},$ $\hat r_{ui} = q_i^\top p_u$ $q_i \leftarrow q_i + \gamma \big( e_{ui} p_u - \lambda q_i \big), \quad p_u \leftarrow p_u + \gamma \big( e_{ui} q_i - \lambda p_u \big),$
ALS(Alternating least squares)
- 위의 수식에서 $q_i$ 와 $p_u$ 는 미지수이기 때문에 수렴하지 않을 수 있다
- 하지만 하나를 고정하면 quadratic하게 해결 가능
- 돌아가며 하나의 변수를 고정하여 업데이트
Adding Biases
- 사람마다 평가에 대해 평균적 성향(경향성)이 존재
- user bias( $b_u$ ): 어떤 사용자는 전체적으로 점수를 높게/낮게 주는 경향이 있음
- item bias( $b_i$ ): 어떤 아이템은 전체적으로 점수가 높게/낮게 매겨지는 경향이 있음
- global mean( $\mu$ ): 특정 데이터셋의 평균 평점
$b_{ui} = \mu + b_u + b_i, \tag{3}$ $\hat r_{ui} = \mu + b_u + b_i + q_i^\top p_u, \tag{4}$

\min_{p_*, q_*, b_*} \sum_{(u,i)\in\kappa} \big(r_{ui} - \mu - b_u - b_i - q_i^\top p_u \big)^2 + \lambda \left( \|p_u\|^2 + \|q_i\|^2 + b_u^2 + b_i^2 \right) \tag{5}

where

q_i \in \mathbb{R}^f, \quad p_u \in \mathbb{R}^f, \quad b_u, b_i \in \mathbb{R}, \quad \kappa = \{(u,i)\ |\ r_{ui} \text{ is observed}\}

실제 추천 시스템에서는 cold start problem을 해결해야 한다
따라서 rating matrix만으로는 정보가 부족하다
이를 보완하기 위한 다양한 추가 정보: