추천 시스템은 사용자가 관심 있는 콘텐츠를 발견하도록 돕는 시스템으로, 비디오 추천, 앱 추천, 온라인 광고 타겟팅 등 다양한 분야에서 사용됩니다. 이러한 시스템은 수백만에서 수십억 개의 아이템을 포함하는 대규모 콘텐츠 코퍼스에서 사용자에게 맞춤화된 추천을 제공해야 합니다. 일반적으로 추천 시스템은 두 단계로 구성됩니다:
1. 검색 (Retrieval): 대규모 코퍼스에서 관련 아이템을 검색.
2. 랭킹 (Ranking): 검색된 아이템을 클릭률이나 사용자 평점과 같은 목표에 따라 재정렬.
이 논문에서는 대규모 코퍼스에서 개인화된 추천을 위한 검색 모델을 구축하는 데 초점을 맞추고 있습니다. 특히, 사용자와 아이템의 콘텐츠 특징을 활용하여 아이템 표현을 학습하는 방법을 탐구합니다.
추천 시스템에서 콘텐츠 특징을 활용하는 것은 일반화를 개선하고 콜드 스타트 문제를 완화하는 데 중요합니다. 기존 연구에서는 행렬 분해(Matrix Factorization, MF) 기반 모델이 널리 사용되었지만, 이러한 모델은 특징 간의 2차 상호작용만을 포착할 수 있어 복잡한 특징을 표현하는 데 한계가 있습니다. 최근에는 딥러닝 기반 모델이 추천 시스템에서 높은 성능을 보이고 있으며, 특히 두 개의 타워(사용자/컨텍스트 타워와 아이템 타워)로 구성된 신경망 모델이 대규모 추천 시스템에서 효과적임이 입증되었습니다.
이 논문에서는 두 개의 타워로 구성된 신경망 모델을 제안합니다.
두 타워는 각각 딥러닝 네트워크로 구성되며, 쿼리와 아이템의 임베딩을 계산한 후 내적을 통해 점수를 매깁니다. 이 점수는 아이템이 사용자에게 얼마나 적합한지를 나타냅니다.
대규모 코퍼스에서 모든 아이템을 고려하는 것은 계산적으로 비효율적이므로, 일반적으로 배치 내의 아이템만을 사용하여 소프트맥스 확률을 계산합니다. 그러나 이 방법은 샘플링 편향 문제를 야기할 수 있습니다. 특히, 인기 있는 아이템이 배치 내에서 더 자주 샘플링되기 때문에 이러한 아이템이 과도하게 패널티를 받을 수 있습니다. 이를 해결하기 위해 논문에서는 아이템의 샘플링 확률을 추정하고, 이를 사용하여 로짓(logit)을 보정하는 방법을 제안합니다.
스트리밍 데이터에서 아이템의 빈도를 추정하는 것은 중요한 문제입니다. 논문에서는 해시 배열을 사용하여 아이템의 샘플링 빈도를 추정하는 알고리즘을 제안합니다. 이 알고리즘은 분산 환경에서도 동작할 수 있도록 설계되었으며, 여러 해시 함수를 사용하여 추정의 정확도를 높입니다.
이 논문에서 제안된 모델링 프레임워크는 YouTube의 대규모 추천 시스템에 적용되었습니다. YouTube의 추천 시스템은 두 단계로 구성됩니다:
1. 검색 (Retrieval): 사용자가 현재 시청 중인 비디오(시드 비디오)를 기반으로 관련 비디오를 검색.
2. 랭킹 (Ranking): 검색된 비디오를 신경망 모델을 사용하여 재정렬.
YouTube의 신경망 검색 모델은 쿼리 타워와 후보 타워로 구성됩니다. 쿼리 타워는 사용자의 시청 기록과 시드 비디오의 특징을 활용하며, 후보 타워는 후보 비디오의 특징을 학습합니다. 모델은 비디오 클릭을 양성 레이블로 사용하며, 사용자의 참여 정도를 반영하기 위해 클릭된 비디오에 대한 보상(reward)을 정의합니다.
YouTube에서는 매일 새로운 학습 데이터가 생성되며, 모델은 이러한 데이터를 순차적으로 학습합니다. 이를 통해 모델은 최신 데이터 분포 변화에 적응할 수 있습니다. 또한, 스트리밍 데이터에서 아이템 빈도를 추정하기 위해 제안된 알고리즘을 적용하여 모델이 새로운 빈도 분포에 적응할 수 있도록 합니다.
검색 시스템은 주기적으로 TensorFlow SavedModel을 생성하여 온라인 서빙을 지원합니다. 인덱싱 파이프라인은 후보 비디오를 선택하고, 이들의 임베딩을 계산한 후, 이를 인덱싱하는 과정으로 구성됩니다. 이를 통해 대규모 코퍼스에서 효율적으로 아이템을 검색할 수 있습니다.
논문에서는 제안된 아이템 빈도 추정 알고리즘과 모델링 프레임워크의 효과를 입증하기 위해 다양한 실험을 수행했습니다.
시뮬레이션을 통해 제안된 알고리즘이 아이템 분포 변화에 적응할 수 있음을 보였습니다. 특히, 학습률(α)과 해시 함수의 수(m)가 추정 정확도에 미치는 영향을 분석했습니다.
Wikipedia 데이터셋을 사용하여 페이지 간 링크 예측 실험을 수행했습니다. 샘플링 편향 보정을 적용한 배치 소프트맥스 모델이 기존 방법보다 우수한 성능을 보였습니다.
YouTube 데이터셋을 사용하여 오프라인 및 라이브 실험을 수행했습니다. 오프라인 실험에서는 샘플링 편향 보정을 적용한 모델이 기존 모델보다 더 높은 재현율(Recall)을 보였습니다. 라이브 실험에서는 제안된 신경망 검색 시스템이 기존 시스템보다 사용자 참여 지표를 크게 개선했음을 보였습니다.
이 논문에서는 대규모 콘텐츠 추천 시스템을 위한 샘플링 편향 보정 신경망 모델링 프레임워크를 제안했습니다. 스트리밍 데이터에서 아이템 빈도를 추정하는 새로운 알고리즘을 제안하고, 이를 YouTube 추천 시스템에 적용하여 오프라인 및 라이브 실험을 통해 그 효과를 입증했습니다. 특히, 순차적 학습 전략을 통해 데이터 분포 변화에 적응할 수 있는 모델을 구축했습니다.
이 논문은 대규모 추천 시스템에서 샘플링 편향 문제를 해결하기 위한 새로운 알고리즘과 모델링 프레임워크를 제안하고, 이를 YouTube에 적용하여 실질적인 성능 향상을 달성했습니다. 이를 통해 대규모 코퍼스에서 개인화된 추천을 제공하는 데 있어 딥러닝 기반 모델의 잠재력을 보여주었습니다.