[U Stage] Day15_추천 시스템 Basic 1

윰진·2022년 10월 11일

NaverAIBoostCamp정리

목록 보기

13/30

day15_20221011

1강 추천 시스템 Basic 1

GOAL

추천시스템에 대한 간략한 소개

추천시스템의 도전 과제

사용할 수 있는 정보 및 데이터

실제 추천 시스템이 적용된 사례

추천 시스템 및 모델 평가 지표 소개

Offline Test : 수집된 데이터를 바탕으로 모델의 성능을 객관적인 지표로 평가

Precision@K, Recall@K, AP@K, MAP@K, 그리고 NDCG

Online Test

Online A/B Test : 추천 결과를 대조군(A)와 비교군(B)으로 동시에 유저들에게 서빙하여 둘 중 어느 쪽이 더 선호되는지 테스트

인기도 기반 추천 기법 소개

사용 데이터

유저 관련 정보

유저 프로파일링
추천 대상 유저에 관련된 정보를 구축하여, 개인 유저 혹은 유저 그룹별로 추천
- 식별자 (Identifier)
  user id, 광고 추천에 사용되는 device id, 로그인 없이 브라우저 쿠키
- 데모그래픽 정보
  성별, 연령, 지역, 관심사 (추정 정보를 활용하기도 함)
- 유저 행동 정보
  페이지 방문 기록, 아이템 평가, 구매 등의 피드백 기록
  - 딥러닝이 발전하면서 유저가 어떤 서비스를 사용하고 어떤 행동을 했는지를 분석해서 더 정교한 추천을 할 수 있게 되었다.

아이템 관련 정보

추천 아이템 별로 고유 정보가 다르기 때문에 케이스 및 서비스 마다 사용하는 방법이 다르다.

예 content base recommendation

아이템 ID
아이템의 고유 정보 ( meta data )
- 영화 : 장르, 출연 배우 및 감독, 소개글, 개봉년도
- 상품 : 카테고리, 브랜드, 출시일, 상품 이미지
- 음악 : 아티스트, 작곡가, 장르, 음악 신호 그 자체

유저 - 아이템 상호작용 정보

유저와 아이템의 상호작용 데이터
유저가 오프라인 혹은 온라인에서 아이템과 상호작용 할 때 로그로 남는다.
추천 시스템을 학습하는 데이터의 feedback이 된다.
- Explicit Feedback
  유저에게 아이템 만족도를 직접 물어본 경우
  예를 들어 영화 평점
- Implicit Feedback
  유저가 아이템을 클릭하거나 구매한 경우
  - 상대적으로 데이터 양이 많다.
  - Implicit feedback 을 잘 모델링하는 것
  예를 들어 유저가 상품을 구매한 경우 implicit feedback = Y

인기도 기반 추천 평가 지표

통계적으로 모든 사용자에게 좋은 평가를 받은 아이템을 추천

데이터가 부족하거나 추천 모델 구축이 되지 않은 서비스 초기에 많이 사용
척도 : 조회수, 평균 평점, 리뷰 개수, 좋아요 / 싫어요 수

Most Popular

- 인기도와 정보의 생성 시점도 함께 고려해야 한다.

${score = f(popularity,age)}$
${score = (upvote-downvote)-time_elasped}$
${score = pageviews - time_elasped}$

pageview 가 크게 늘어나면 시점에 관한 정보를 반영하기 어렵다.

Hacker News Formula

뉴스 추천 서비스 : 많은 사람이 본 뉴스 추천, 시간이 오래될수록 점수를 깎는다.

시간에 따라 줄어드는 score 를 조정하기 위해 gravity(=1.8) 라는 상수를 사용한다.

pageview 의 상승 속도가 age 상승 속도 보다 빠르다.
${score = \frac{pageviews - 1}{(age + 2 )^{gravity}}}$

Reddit Formula

최근에 포스팅된 글에 더 높은 점수를 부여한다.

${score = \log_{10}(ups - downs) + \frac{sign(ups-downs)*seconds}{45000}}$

popularity : ${\log_{10}(ups - downs)}$
포스팅이 게시된 절대시간 : seconds
- 나중에 게시된 포스팅일수록 절대시간이 크기 때문에 더 높은 score 를 가진다.
${\log_{10}(ups - downs)}$ : 첫 번째 vote 에 가장 높은 가치를 부여하고, vote 가 늘어날수록 score 의 증가 폭이 작아진다.
- log 함수를 통해 vote 가 폭발적으로 증가하는 것을 보정해준다.
- 오래된 포스팅일수록 상대적으로 많은 vote 가 있어야 높은 score를 가진다.

Highly Rated

문제 신뢰할 수 있는 평점인지, 평가의 개수가 충분한지에 대한 이슈가 있다.
${\rightarrow}$ 얼마나 많은 rating 이 구성되어 있는지가 중요하게 작용함

${score = f(rating, \# of ratings}$

Steam Rating Formula

좋아요 개수가 평균 평점이 됨
# of reviews 값이 증가하면 ${score := avg\_rating}$
즉, rating 개수가 많이지면 평균 평점을 그대로 활용한다.

${avg\_rating = \frac{\#\ of\ postive reviews}{\#\ of\ reviews}}$
${score = avg\_rating - (avg\_rating - median)*2^{-\log(\# of reviews)}}$

rating 은 평균값을 사용한다.
- 전체 review 개수에 따라 rating 을 포정한다.
- 0.5 보다 score가 낮거나 높을 경우 조금 높게 또는 낮게 보정
review 개수가 아주 많을 경우 score 는 평균 rating 과 거의 유사해진다.
median : 0.5 at steam rating , 3.0 at movie recommend

이 글은 커넥트 재단 Naver AI Boost Camp 교육자료를 참고했습니다.

윰진

이전 포스트

[U Stage] Week4 Github 특강 1 - 기본 활용법

다음 포스트

[U Stage] Day15_추천 시스템 Basic 1

NaverAIBoostCamp정리

1강 추천 시스템 Basic 1

추천 시스템이란

사용 데이터

유저 관련 정보

아이템 관련 정보

유저 - 아이템 상호작용 정보

추천 시스템 문제 정의

추천 시스템의 목적

추천 문제 : 랭킹 또는 예측

추천 시스템 평가

비즈니스 / 서비스 관점

품질 관점

Offline Test

Online Test

추천 시스템의 평가 지표 소개

Precision/Recall @K

Mean Average Precision(MAP) @K

Normalized Discounted Cumulative Gain(NDCG)

NDCG Formula