[부스트캠프 AI Tech 5기] Advanced Recommender System

박상우·2023년 4월 11일

recsys 강화학습 부스트캠프

부스트캠프

목록 보기

40/54

추천 시스템의 한계 및 연구 동향

추천 시스템 문제

Cold Start

일반적인 추천 시스템은 사용자 특성 혹은 아이템 특성으로 구성 됨
어떤 사용자에 대한 특성 정보가 충분치 않아 적절한 상품을 추천하지 못함
어떤 아이템에 대한 특성 정보가 충분치 않아 추천 대상을 선정하지 못함

Dynamically Changing

사용자의 선호나 환경은 계속해서 변화
정확성과 다양성 사이에는 트레이드 오프가 존재
지금까지 추천 모델들은 문제점을 전부 해소하지는 못함

Real-Time Optimization

시간 흐름 문제를 해결하기 위해 실시간 최적화 알고리즘을 사용
MAB는 강화학습의 대표적인 문제이며 Exploration과 Exploitation을 적절히 조절하여 보상을 극대화

MAB의 장점

대리 목표가 아닌 실제 목표를 통한 학습 가능
탐색과 활용을 고려한 장기적 보상 극대화
실시간으로 업데이트가 진행
이는 추천 시스템 설계에 적합한 알고리즘

강화학습

지속적인 Action을 통해 최적의 Decision Making 과정을 학습하는 방법
지연된 보상, 경로 종속성, 무한한 상태는 추천 시스템에서 용이한 특성

Value-aware Recommdentaion based on Reinforced Profit Maximization in E-commerce Systems

RMSE 측면에서 예측 정확도 혹은 Top-K 추천 순위등 품질의 초점
온라인 광고와 미시 경제학의 기본 개념 활용
클릭, 카트 추가, 위시리스트 등록 등 사용자의 행동을 경제적 가치로 변환

Introduction

강화학습을 이용하여 개발한 추천 알고리즘은 이익을 수치화 및 최적화 할 수 있음
행동을 수익화 하여 가치 기반 알고리즘 개발

Model

가치 기반 강화학습 알고리즘을 사용

Deep Reinforcement Learning baed Recommendation with Explicit User-Item interactions Modeling

추천은 static process가 아님
유저의 선호는 변함
DRR은 추천을 연속적인 의사결정과정으로 보고 Actor-Critic 기반의 강화학습 모델을 적용 (Policy 기반 강화학습)

이전 포스트

[부스트캠프 AI Tech 5기] 비정형 데이터를 활용한 Recommender System

다음 포스트

[부스트캠프 AI Tech 5기] 파이썬 버전 관리

0개의 댓글