Field-aware Factorization Machines for CTR Prediction(1)

DONGJIN IM·2022년 6월 13일

논문

논문 리뷰

목록 보기

7/8

Abstract

CTR Prediction : Computational Advertising에서 중요한 역할을 수행
2개 모델이 이 Task에서 널리 활용됨
- degree-2 Polynomial Mappings models : Poly2
- Factorization Machines : FMs
논문에서 소개하는 모델 : Field-aware Factorization Machiens(FFMs)
- FM의 변형
- Large Sparse Data를 분류하는 가장 좋은 모델
논문에서 하고자 하는 것
- FFMs 학습을 위해 실행한 효율적인 방법 설명
- FFMs를 폭넓게 분석하여 다른 경쟁 모델과 비교
Keywords

Machine Learning
데이터를 통해 기계가 스스로 학습하게 하는 방법

Click-through rate Prediction
Click-through rate : 추천된 아이템을 유저가 클릭할 확률
CTR Prediction
- 추천 시스템에서 매우 중요한 요소 중 하나
- 대부분의 추천 시스템에서 최대화하기 위해 노력하는 Task
- CTR을 예측하기 위해 사용자의 Implicit Feature를 학습해야 함
- Implicit Feature : User에 대한 정보
  - (ex) 성별, 나이대, 시간 등
  - (ex) 20대 남자는 6시 정도에 배달 앱을 많이 선택한다
    $\rightarrow$ Gender & 시간 2 Interaction으로 CTR Prediction을 수행
Computational Advertising
- 직역 : 컴퓨터 광고
- 핵심 : 유저에게 맥락에 적합한 광고를 어떻게 제시할 것인가?
- 즉, 컴퓨터를 통한 광고를 맥락에 맞게 하는 방법을 찾는 것이 Computational Advertising의 효과를 높이는 첫번째 방법인 것이며, 이를 위해 가장 많이 활용되는 Task가 CTR Prediction Task이다.

Factorization Machines(FMs)

사실상 이 논문보다 핵심인 것 같은 Model
FFMs도 FMs의 변형이므로, 결국 FMs를 잘 알아야 FFMs도 잘 알 수 있음
따라서 원래 존재하지 않는 Section이지만 FMs에 대한 Section을 새로 만들겠다
- 검색 등을 통해 이해한 내용을 바탕으로 정리한 것
- 나중에 FMs에 대한 논문 정리를 하는 것을 추천함

Factorization Machines(FMs)

공부를 위해 많이 읽은 사이트

https://supkoon.tistory.com/31
- 정말 좋은 블로그 같아서 꼭 읽어보기를 추천

FMs

Matrix Factorization의 단점

일반적인 데이터에 바로 적용할 수가 없음
대부분의 경우 Task Specific한 모델
이러한 단점을 해결하기 위해 SVM과 MF의 장점을 동시에 가지고 있는 FMs Model이 발표됨
- SVM의 장점 : 데이터 형태에 규제받지 않고 분류, 회귀 등 다양한 작업을 수행할 수 있음

FMs의 장점

Sparse Data에도 활용 가능
- SVM에서는 Sparse Data일 경우에 Parameter 추정이 어려웠음
- FMs에서는 Sparse Data에서도 학습이 가능함
Linear Complexity
General Predictor
- 실수 벡터를 활용하더라도 잘 작동함

FMs 동작 과정

FMs Input

출처 : Factorization Machines(paper)
$v_i$ : 각 Feature의 잠재벡터

MF에서는 User, Item, Rating만을 활용했지만 FM은 다양한 Feature를 Concat하여 1개의 Feature Vector를 만들고, 이를 Input으로 넣어준다.
즉, Explicit 뿐만이 아닌 Implicit한 특성이라도 실수 형태로 x Vector에 추가시킬 수 있다.

FMs에서는 User, Item과 같은 Categorical Feature를 One-hot 형태로 표현하여 x에 추가하기 때문에 일반적으로 Input Data x는 Sparse한 Vector가 된다.

이처럼 Feature Vector를 형성한 뒤, 바로 가중치 행렬 W에 x를 곱하여 W를 구하는 방식으로 학습하지 않는다.
대신 V라는 Matrix를 활용하여 W를 분해한 뒤 (Factorize) V를 학습하는 방향으로 진행된다.
(여기는 MF와 비슷한 형식)

일반족으로 Positive definite matrix W에 대해서는 충분히 큰 k에 대해 $W = V \dot V^T$ 를 만족하는 V가 존재한다고 알려져있고, 이는 W를 V안에 포함된 잠재벡터 $v_i$ 의 내적으로 표현할 수 있다는 의미이다.
(Sparse Data를 많이 활용하므로 좋은 일반화를 위해 k를 어느정도 작게 잡는다)

즉, f개 Latent Vector로 표현된 $v_i$ 간의 2-way Interaction의 내적값과 $v_i$ 와 대응하는 $x_i$ 곱을 활용하여 최적화를 진행하는 것이다.

FM의 가장 큰 특징은 특성마다 Latent Space로의 Mapping을 진행하고, Latent Space에서의 내적을 계산한다는 것이다. 이를 Factorized Parametrization이라고 한다.

이를 수식으로 나타내면 아래와 같다

\hat{y}(x) = w_0 + \sum_{i=1}^nw_ix_i + \sum_{i=1}^n\sum_{j=i+1}^n<v_i,v_j>x_ix_j

DONGJIN IM

개념부터 확실히!

이전 포스트

Distributed Representations of Sentences and Documents

다음 포스트

Field-aware Factorization Machines for CTR Prediction(1)

논문 리뷰

Abstract

Keywords

Machine Learning

Click-through rate Prediction

Factorization Machines(FMs)

Factorization Machines(FMs)

공부를 위해 많이 읽은 사이트

추천 시스템

추천 시스템의 전략

Content-Based 전략

Collaborative Filtering 전략

Matrix Factorization

K에 대한 설명

MF에서 Gradient Descent를 활용한 학습 기법

SGD

ALS(Alternating Least Squres)

FMs

Matrix Factorization의 단점

FMs의 장점

FMs 동작 과정

FMs Input

Distributed Representations of Sentences and Documents

Field-aware Factorization Machines for CTR Prediction(2)

0개의 댓글