Fresh & Tail 콘텐츠를 성공적으로 추천하기 위한 Multi-funnel 추천 시스템을 구축
→ 이를 통해 “coverage”와 “relevance”의 균형을 맞추게 됨
→ 두 퍼널을 결합해 새로운 콘텐츠에 대한 초기 노출을 보장하면서 동시에 사용자의 선호도와 관련성이 높은 콘텐츠를 추천
GPT Bootstrap?
논문의 맥락에서 "bootstrap"은 콘텐츠 추천 시스템에서 신규 콘텐츠가 초기 노출을 얻어 자체적으로 성장할 수 있도록 지원하는 과정을 의미합니다. 즉, 새로운 콘텐츠가 필요한 초기 인지도와 상호 작용을 획득하여 시스템에서 자연스럽게 추천되고 더 많은 관심을 받을 수 있도록 '부팅'하는 것을 뜻합니다. 이는 통계적인 샘플링과는 다른 의미로 사용됩니다.
부트스트래핑 과정은 새로운 콘텐츠나 덜 알려진 콘텐츠가 초기 노출을 통해 필요한 주목과 상호 작용을 얻을 수 있도록 지원하는 단계를 말하며, 이 과정을 거친 후 콘텐츠가 특정 수준의 긍정적 반응을 얻었다면, 그 콘텐츠는 "발견 가능한 코퍼스(discoverable corpus)"에 포함됩니다.
단기적인 유저 경험과 장기적인 유저 경험이 균형을 이루기 위해, 두가지 차원으로 효율성을 평가함
(1) coverage : 사용자에게 신선한 콘텐츠를 더 많이 노출하고 있는지
(2) relevance : 사용자가 관심 가질만 한 콘텐츠들을 추천하고 있는지
fresh content recommendation stack을 디자인하는 과정에서 고려할 것들
(1) 기존에 존재하는 추천 스택 구조 중 어디에 위치시켜야 하는가?
: relevance를 위해 따로 분리함
(2) stack에 어떤 요소가 필요한가?
: nomination system, graduation filter, ranking system을 포함
(3) coverage와 relevance의 balance를 어떻게 유지할 것인가?
: 높은 coverage를 가진 모델과 높은 relevance를 가진 모델 사이에서 사용자 요청을 전환하는 multi-funnel nomination system을 구축
(4) 적거나 거의 없는 선행된 engagement data를 가진 contents를 어떻게 모델링 할 것인가?
: two-tower DNN 모델을 활용하여 초기 배포를 부트스트랩 → 사용자 피드백에 대해 거의 실시간으로 업데이트하는 sequence model을 사용하여 관심 있어할 만한 고객군을 빠르게 찾음
(5) fresh content recommendation 의 효과를 어떻게 측정할 것인가?
: user-corpus co-diverted experiment framework를 채택
GPT user-corpus co-diverted experiment framework ? 대조군과 실험군으로 나누어 추천시스템의 성능을 평가파이프라인 설정
기존의 추천 시스템에서는 Fresh and Tail contents가 발견되기 어려움
→ Fresh(𝑋일 이전에 생성된) & Tail(𝑌개 미만의 긍정적 사용자 상호작용) 컨텐츠에 대해 하나의 (유동적인) 슬롯을 할당

1) Fresh content nominator
Cold-start item recommendation problem을 극복하기 위해 투 타워 모델 사용
GPT multiscale quantization 의 작동 원리 Multiscale quantization은 데이터 포인트(예: 이미지, 텍스트, 사용자 프로필 등의 벡터 표현)를 소수의 대표적인 값(중심, centroids)으로 압축하여 저장하고, 이 중심들을 이용하여 실제 데이터 포인트를 빠르게 근사 검색할 수 있게 합니다. 이 방법은 다음과 같은 단계로 이루어집니다:2) Graduation filter : 실시간으로 사용자에 의해 최소 n회 소비된 컨텐츠를 제거
3) Ranking : pre-scorer을 통해 상위 10개 후보를 추출 → main 추천시스템과 공유하는 ranker를 통해 최종 top-1 콘텐츠를 선택
User corpus co-diverted experiment.

전통적인 A/B Test 방법 (왼쪽 그림)
논문에서 제안하는 A/B Test 방법 (오른쪽 그림)
Performance Evaluation Metrics.
coverage & relevance 를 측정
Daily Unique Impressed Contents at 𝐾 (DUIC@𝐾 ) : 매일 K 번 표출되는 고유 콘텐츠의 수
GPT Impression ?상대적으로 낮은 K 값에 초점을 맞추어 콘텐츠 coverage의 범위를 측정
( K가 낮은 경우, 시스템이 다양한 콘텐츠를 얼마나 효과적으로 사용자에게 노출시키고 있는지 보여줌)
→ 추천 시스템이 신규 콘텐츠를 효과적으로 홍보하고 있는지를 파악하는 데 유용한 지표
GPT K값신규 콘텐츠 체류 시간 (DwellTime) : 사용자가 신규 콘텐츠에 머문 시간을 측정
→ 더 긴 체류 시간은 시스템이 사용자의 신규 콘텐츠에 대한 선호도를 더 정확하게 파악하여, 더 높은 관련성(relevance)을 달성하고 있음을 의미
콘텐츠 수 X가 Y일 동안 받은 긍정적 상호작용 수 (Discoverable Corpus@X,Ydays):
bootstrapping 이후, 신규 추천 스택에서 받은 상호작용은 제외한 긍정적 상호작용을 측정 (스스로 바이럴되는 콘텐츠를 좋은 콘텐츠라고 생각함)
이외에도, 플랫폼 전체에서 사용자가 보내는 총 시간을 측정하는 사용자 지표도 함께 측정
(신규 콘텐츠 추천이 단기적인 사용자 경험을 너무 저해하지 않도록)
2.1 Values of Fresh Recommendation
RQ1 적은 상호 작용이 있는 신규 콘텐츠의 경우, 효과적으로 사용자의 관련성을 추론하고 콘텐츠를 bootstrap할 수 있는 방법은 무엇일까?
RQ2 초기 상호 작용 일부를 축적한 후에, 제한된 상호 작용 피드백을 빠르게 활용하여 가치 있는 콘텐츠를 증폭할 수 있는 방법은 무엇일까?
RQ3 콘텐츠 일반화와 실시간 학습 사이의 균형을 어떻게 맞추고, 신규 추천을 위한 user cost를 어떻게 줄일 수 있을까?
Two tower architecture 활용
1) Item tower에서 item ID를 제거 : 모델이 개별 아이템에 대한 과거의 선호를 기억하는 것을 방지
2) 아이템의 과거의 선호를 나타내는 특성(impression, positive engagement 등)도 제외
→ 인기 있는 콘텐츠와 새로 업로드된 콘텐츠 사이를 일반화할 수 있는 메타 특성만이 학습을 위해 item tower에 포함
이러한 변경이 coverage를 개선하는지 확인하기 위해 온라인 A/B 테스팅을 수행
→ DUIC@𝐾 3.3% 증가, 신규 콘텐츠 체류 시간도 2.6% 증가
Content Features in Used.
대조군과 실험군 모두에서 사용된 콘텐츠 특성은 콘텐츠 자체에서 파생된 다양한 범주의 특성들을 포함
일반화를 위해 콘텐츠 특성에 크게 의존하는 nominator는 신규 콘텐츠의 초기 bootstrap에는 효과적이지만, 사용자의 초기 피드백에 빠르게 반응할 기억 능력이 부족함 → 스트리밍 방식으로 새로운 상호작용 데이터가 제공될 때마다 학습하는 real-time nominator가 필요
이를 위해 (i) 실시간에 가까운 사용자 상호작용 데이터를 활용하여 학습
(ii) latency(지연)이 적은 개인화 검색 모델을 구축해야 함 → end-to-end latency를 몇시간 정도로 줄임
콘텐츠 검색을 위해 사용되는 Two-tower 모델( Query tower / item tower) 의 구조

Category-centric Reweighting.
Fresh contents라고 하더라도, 상호작용 데이터의 패턴이 다를 수 있음
→ item corpus 전체에서의 인기도에 따라 특성을 역가중치하는 IDF 가중치 방식을 도입
fresh recommendation stack의 콘텐츠는 실제로
(i) 매우 제한적인 상호작용 또는 전혀 상호작용이 없는 low-funnel contents → 콘텐츠 일반화가 필요
(ii) 콘텐츠 일반화를 통해 몇 가지 초기 상호작용 피드백을 수집한 middle-funnel contents로 세분화 가능 → 사용자 피드백을 신속하게 적용할 필요

Query Division for Multi-funnel Nomination.
하지만 middle-funnel의 콘텐츠를 ranking 과정에서 나타나는 popularity bias를 방지하기 위해
→ query division multiflexing 을 제안 : 각 사용자 쿼리는 두 funnel 중 하나에 (p% / 100-p%의 확률로) 랜덤하게 할당
두 가지 추천 모델(S-real-time, S-two-tower)과 다중 퍼널 추천 시스템의 성능을 비교한 실험 결과를 다룬다.
Daily unique impressed contents(DUIC):
발견 가능한 코퍼스(Discoverable Corpus):
= 콘텐츠 수 X가 Y일 동안 받은 긍정적 상호작용 수 (Discoverable Corpus@X,Ydays)
User metrics:
→ 이러한 실험 결과는 다중 퍼널 추천 시스템이 신선한 콘텐츠를 더 효과적으로 다루고, 사용자와 콘텐츠 제공자 모두에게 이점을 제공할 수 있음을 입증