[논문리뷰] Soft Retargeting Network for CTR Prediction

Minjoo Lee·2022년 7월 17일
0

Recommendation System

목록 보기
1/1

CTR 예측에서 사용자의 관심에 대한 연구는 중요한 부분을 차지합니다. 사용자의 관심은 관점에 따라 여러가지고 나뉘는데, 해당 논문에서는 사용자의 리타겟팅 관심에 대해 다룹니다. 리타겟팅 관심이란, 사용자가 이전에 클릭했던 상품들과 같거나 유사한 새로운 타겟 상품에 대한 관심을 의미합니다.

해당 논문에서는 리타겟팅 관심도를 모델링 하는 SRN(Soft Retargeting Network)을 제안합니다. 타겟 삼품과 사용자의 히스토리 상품(클릭된) 사이 유사도를 계산하고, 유사도를 이용해 타겟 상품에 대한 사용자의 클릭을 예측합니다. 이러한 SRN을 통해 성능 향상을 이뤘습니다.

1. Introduction

사용자가 클릭한 히스토리 상품들은 대부분 두 가지 방법으로 추천되었습니다. 사용자가 이전에 방문 페이지를 기반으로 리마인드 시켜주는 리타겟팅 서비스에 의해 추천되었거나 히스토리 행동을 바탕으로 비슷한 상품을 추천해주는 온라인 광고 시스템을 통해 추천된 상품들 입니다. 이렇게 사용자의 최신 관심을 바탕으로 관련도가 높은 상품들을 추천하는 것은 온라인 광고에서 높은 성적을 보입니다. 일반 광고보다 평균적으로 10배 높은 CTR을 보이고, 알리바바에서도 다른 상품들보다 리타겟팅된 상품들이 2배 높은 CTR 성적을 갖습니다. 하지만 일반적인 모델들은 리타겟팅 상품 구분이 불가능해 리타겟팅된 상품들의 CTR이 저평가 되어 클릭과 매출 기회를 잃기 쉽습니다. 해당 논문은 사용자의 리타겟팅 관심을 이용해 CTR 예측 모델링에 사용하는 방법을 제안합니다.

2. Proposed approach

2.1 Hard Retargeting Network

사용자의 리타겟팅 관심을 모델링하는 단순한 방법을 먼저 소개합니다.

리타겟된 상품에 대한 사용자의 관심을 측정하기 위해서, HRN는 단순히 사용자기 이 아이템을 그동안 클릭한 횟수를 이용합니다. 클릭 횟수가 사용자의 관심을 표현하며, 많이 클릭할 수록 높은 관심을 의미합니다. 클릭 횟수를 카테고리컬 피처로 이용해 CTR 예측의 입력값으로 사용합니다.

  • target item: tt
  • historical item: bjb_j
  • user behavior sequence: B=b1,b2,,bnB = {b_1, b_2, …, b_n}
  • similarity weight between target item and historical item: s(t,bj)[0,1]s(t,b_j) \in [0,1]
    • s(t,bj)={1, ift=bj0, else.s(t, b_j) = \begin{cases} 1, \ if t=b_j \\ 0, \ else. \end{cases}
  • sequence of similarity weights: St=s(t,b1),s(t,b2),,s(t,bn)S_t = {s(t, b_1), s(t, b_2), … , s(t, b_n)}
target item: 4
user behavior history: [1, 2, 0, 4, 2, 4, 0, 4, 1, 0]
sequence of similarity weights: [0, 0, 0, 1, 0, 1, 0, 1, 0, 0]

sequence of similarity weights는 타겟 상품에 대한 사용자의 클릭 기록으로 볼 수 있습니다. StS_t에 Sum Pooling 을 적용해 NSN_S값을 계산합니다. NSN_S는 히스토리 내에서 타겟 아이템을 클릭한 횟수와 같습니다. NSN_S을 binning* 적용을 통해 카테고리 성분인 FEAIS=binning(NS,1)FEA_{I_S} = binning(N_S,1) 을 만들고, 임베딩 레이어를 통해 FEAISFEA_{I_S}를 CTR예측 모델의 입력값으로 사용합니다. 이렇게 정의한 HRN 동작은 단순해 보이지만 e-commerce 상황에서 좋은 성능을 보여줍니다.

*binning(x, z): 구간화, 구간 크기가 z가 되도록 x를 이산적으로 나눔

$N_S$: 4
$FEA_{I_S}$: “5”

2.2 Soft retargeting network

HRN에서는 타겟 상품이 이전에 클릭한 상품과 ‘같은’ 경우만 리타겟으로 여기게 되는데 이때 리타겟팅 비율은 매우 제한되어 성능 항상이 제한되는 문제가 생깁니다. 해당 논문에서 제안하는 SRN은 리타겟 상품의 범위를 넓은 레벨로 확장해 위 문제를 해결할 수 있습니다.

SRN의 기본적인 아이디어는 HRN과 유사하며, SRN은 sequence of similarity weights를 먼저 계산하고, 이를 결합해 사용자의 리타겟팅 관심도를 표현합니다. SRN의 주요 컴포넌트는 다음과 같습니다.

Graph Embedding Layer

사용자-상품 상호작용 데이터를 이용해 Pre-train한 그래프 네트워크로 상품에 대한 그래프 임베딩 딕셔너리를 구축합니다.

Similarity Gate Layer

그래프 임베딩 벡터를 이용해 타겟 상품과 행동 상품 사이의 코사인 유사도 cosine(t,bj)[1,1]cosine(t, b_j) \in [-1, 1]를 계산합니다. 하지만 유사도 웨이트는 유저가 느끼는 상품의 유사 정도로 코사인 유사도와 상관관계가 높지만 다를 수 있습니다. 또한 s(t,bj)[0,1]s(t, b_j) \in [0, 1]로 코사인 유사도에 변환FF을 통해 유사도 웨이트를 정의합니다.

s(t,bj)=F(cosince(t,bj))=σ(wconsine(t,bj)b)σ(wb)s(t, b_j) = F(cosince(t, b_j)) = \frac{\sigma (w * consine(t, b_j) - b)}{\sigma(w-b)}
  • FF의 조건
      1. cosine(t,bj)=1.0cosine(t, b_j) = 1.0, 유사도 가중치도 1
      1. cosine(t,bj)Tcosine(t, b_j) \le T, 유사도 가중치는 0에 가까움
      1. T<cosine(t,bj)<1.0T < cosine(t, b_j) < 1.0, 유사도 가중치는 0과 1 사이의 큰 값

경험상 (w=10,b=9w=10, b=9)가 좋은 초기값이고, CTR 모델이 FF를 최적화 하도록 학습합니다.

Weight Aggregation Layer

SRN에서는 HRN보다 더 넓은 범위의 리타겟된 상품을 정의할 수 있고, 이후 HRN과 동일한 과정(Sum Pooling과 binning)을 통해 사용자의 리타겟팅 관심을 모델링 할 수 있습니다. 하지만, binning은 미분이 불가능해 유사도 게이트 레이어의 학습을 막게 됩니다.

SRN은 코사인 유사도에 binning을 적용해 카테고리 피쳐인 FEAjripple=binnig(cosine(t,bj),0.01)FEA_j^{ripple}=binnig(cosine(t, b_j), 0.01) 를 정의하고, 임베딩 레어이를 이용해 사용자의 리타겟팅 관심을 표현합니다. (HRN은 s(t,bj)s(t, b_j)의 Sum Pooling 결과인 NSN_S에 binning 적용) 이는 F의 선형 표현 한계를 보완해 줄 수 있습니다.

IS=s(t,bj)ejrippleI_S = \sum s(t, b_j) * e_j^{ripple}

Retargeting Evolution Layer

사용자의 리타겟팅 관심은 시간에 따라 변화합니다. 유사도 가중치가 S1S_1={0.1, 0.5, 0.9} 인 경우와 S2S_2={0.9, 0.5, 0.1} 인 경우를 비교해보면, S1S_1은 타겟 상품에 대한 관심이 증가하고 S2S_2는 관심이 감소하는 차이가 있습니다. 유사도 가중치 시퀀스를 단순히 결합하게 되면 차이가 없기 때문에 이러한 변화를 잡을 수 있도록 ripple 임베딩입력을 받는 GRU 네트워크를 사용합니다.

CTR Prediction Layer

웨이크 어그리게이션 결과와 이볼루션 결과를 결합해 CTR예츨 MLP의 인풋으로 사용 합니다.

3. Experiments

3.1 Setup

데이터 셋

클릭 예측에 적용할 수 있는 데이터를 사용하기 위해 Taobao dataset, Alimama dataset, Industrial dataset 세가지를 이용했습니다.

그래프 구성

각각의 데이터에 대해 HAN (Heterogeneous graph Attention Network)를 Link Prediction 문제로 정의해 Pre-train 임베딩을 구축했습니다. (자세한 설정은 논문 참고)

파라미터

최대 길이를 100으로 하는 시퀀스 데이터 사용하였고, CTR 임베딩은 8차원, 그래프 임베딩은 32차원의 데이터를 이용했습니다.

평가 지표

AUC, Logloss

3.2 performance evaluation

HRN이 DNN 계열보다 견고하고, SRN이 HRN 보다 좋은 성능을 보였습니다. SRN이 더 좋은 성능을 갖는 이유는 리타겟팅 상품으로 판단된 상품 비율이 HRN보다 확실히 많아 성능을 올렸을 것으로 보입니다. 이 후 온라인 A/B 테스트에서도 좋은 결과를 보였습니다.

4. Conclusion

해당 논문에서는 사용자의 리타겟팅 관심을 모델링하는 Soft Retargeting Network를 제안함으로 의미있는 성능 향상을 이뤘습니다.

0개의 댓글