
앨리스라는 사용자가 YouTube에서 요리 비디오를 자주 시청한다고 가정해 보겠습니다. 이제 모델이 어떻게 작동하는지 자세히 설명하겠습니다:
임베디드 희소 특성: 모델은 앨리스가 시청한 비디오(예: "파스타 만드는 법," "이탈리아 요리 기술")와 사용한 검색 토큰(예: "쉬운 저녁 요리 레시피")에 대한 임베딩을 생성합니다.
밀집 특성: 모델은 앨리스가 요리 비디오를 시청하는 평균 시간, 지리적 위치(예: 이탈리아), 인구 통계 정보(예: 여성, 30세)와 같은 연속적인 특성도 고려합니다.
학습: 모델은 앨리스의 시청 기록을 기반으로 그녀가 다음에 시청할 비디오를 예측하도록 학습됩니다. 예를 들어, 앨리스가 "파스타 만드는 법"을 시청한 후 "이탈리아 요리 기술"을 시청했다면, 모델은 그녀가 다음에 "전통 이탈리아 디저트"를 시청할 가능성이 높다고 예측합니다.
서빙: 앨리스가 로그인하면, 모델은 그녀의 시청 기록과 유사한 비디오를 추천하기 위해 근사 최근접 이웃 탐색을 수행합니다. 예를 들어, "진짜 이탈리아 피자 레시피"나 "빠른 이탈리아 전채 요리"와 같은 비디오를 추천할 수 있습니다.
과적합 방지: 앨리스가 "이탈리아 디저트"를 검색하면, 모델은 단순히 상위 검색 결과를 추천하지 않습니다. 대신, 그녀의 검색 토큰과 시청 기록의 임베딩을 사용하여 이탈리아 요리에 대한 그녀의 관심사와 일치하는 비디오를 추천합니다.
균등 가중치: 앨리스가 다른 사용자인 밥보다 더 많은 비디오를 시청하더라도, 모델은 사용자당 학습 예제 수를 제한하여 앨리스와 밥이 학습 과정에 동등한 영향을 미치도록 합니다.
이 접근 방식은 개인화되고 다양한 추천을 제공하며, 새로운 콘텐츠가 추천될 기회를 제공하고 모델이 가장 인기 있거나 최근에 시청된 비디오에 과적합되지 않도록 합니다.