비정형 데이터 추천 시스템

김동환·2023년 4월 13일
0

AI_tech_5기

목록 보기
16/18
post-custom-banner

CF의 한계

  • cold start problem
  • 취향이 독특한 사용자 -> feedback 분포에 악영향을 끼침
  • 사용자의 feedback을 동일하게 해석(같은 4점이여도 개개인마다 다름)

    근본적인 이유는 신규 유저와 아이템이 지속해서 증가하고 변화하기 때문

비정형(텍스트, 이미지) 활용

  • 과거 아이템의 이미지를 활용하여 새로운 아이템에 대한 특징 추출이 가능

  • 사용자가 남긴 텍스트를 활용하여 취향에 대한 특징 추출이 가능

  • 새로운 아이템이나 인기 없는 아이템도 추천이 가능

  • 아이템을 왜 추천하는 이유에 대한 설명력이 증가

  • 다양한 맥락 정보를 함께 활용하기 때문에 보다 정교한 추천이 가능

    How?

  • 비정형 데이터의 고유 특징 추출 위해 CNN,RNN등의 딥러닝 구조 필요

  • 비정형 데이터 활용은 컨텐츠 기반 추천 시스템

    • 협업 필터링과 함께 활용해야 큰 강점을 지님

    다양한 응용 모델들을 한번에 end-to-end로 구현하기 위해 딥러닝 필요

    • LearningNonlinearityFeatures
      • 데이터가 더 복잡해지고 Feature차원이 증가하면서 선형적으로 학습하기 어려운 것들을 비선형 함수를 통해 해결
    • RepresentationLearning
      • Hand-CraftFeatureDesign을 줄일 수 있으며 다차원 정보 처리 가능
    • VariousArchitectures
      • CNN,RNN 등 비정형 데이터 특징 추출에 특화된 구조 활용 가능
    • Flexible Structure
      • end-to-end 구조 Domainadaptation, Generativemodeling 등과 같은 응용 모델 활용 가능

Image Based Rec

이미지를 기반으로 제품 간의 관계를 학습해 추천하는 모델

ABSTRACT
• 사람이 상품 이미지를 어떻게 인식하는지를 활용
• 상품 이미지 속에 숨겨진 시각적 관계를 이해
• 유저의 검색 기록이나 과거 구매기록 등을 사용하지 않음
• 매우 큰 상품 이미지 데이터셋을 활용하고 확장
• 어떤 아이템들끼리 잘 어울리는지 추천

  • CNN을 사용하여 F차원으로 계산
  • ShiftedSigmoid함수로 i상품과 j상품간 유사도 거리 확률을 계산
  • 시각적 유사성만 모델링하기 위해 Mahalanobis transform 사용
  • 사용자가 아이템에 대해 어떤 관계를 가지고 있는지 파악하기 위해 Personalized distancefunction을 정의
  • 데이터셋에서 유저가 연결된 엣지가 있는 경우 성립된다는 것을 가정
  • 개인화 문제를 해결하기 위해 ratingandreviewdata를 모두 사용

VBPR

이미지 비정형 데이터를 추가하여 베이지안 이론을 기반으로 개발한 추천 시스템

ABSTRACT
• 개인화된 선호 순위를 선정하기 위해 이미지 특성을 활용
• 기MatrixFactorization알고리즘으로 접근
• 대규모 데이터에 적용
• 제품을 선택할 때 고려하는 시각적 차원을 모델로 학습
• 콜드 스타트 문제를 완화하고 시각적 차원에서의 설명 가능한 추천 가능
• 한 BayesianPersonalizedRanking기반 훈련

BPR

  • 기존 MF로 개인화된 Rank문제를 풀기 위해 새롭게 제안한 최적화 기법(BPR-OPT)을 사용한 모델
  • MaximumPosteriorEstimator에 기반한 최적화 기법인 BPR-OTP를 제안

VBPR

Joint Deep Model

  • review data를 활용해서 희소성을 완화
  • word2vec을 이용해 word representation
  • cnn을 이용해 특징 추출

    • 리뷰 데이터를 활용하여 등급을 예측
    • 리뷰를 바탕으로 사용자 행동에 대한 특징과 아이템 특성과의 상호작용을 학습
    • 사용자 및 아이템에 대한 잠재 요인을 개별적으로 활용도 가능하지만 서로 보완 및 활용 가능
    • 희소성 문제를 효과적으로 완화

Joint Training of Ratings & Reviews with RRN

기존 모델 limitations

  • 모델의 예측 정확도는 미래 시점의 평가를 하고 있지 않음
  • 리뷰 데이터를 활용한 추천 모델들은 최신 자연어 처리 기술에 크게 뒤쳐짐

breakthrough

  • rating과 review를 Recurrent기반 Arch.로 학습한 모델 구조
  • 시간 흐름에 따른 특징을 포착

MODEL(Architecture)- Rating Layer

MODEL(Architecture)­ Review Layer

Conclusion

• Recurrent구조를 사용하여 Rating,Review를 함께 모델링 하는 새로운 구조
• 더 다양하고 비정형적인 Review 데이터를 보다 잘 이해하기 위해 신경망 기반 언어 모델 사용
• rating과 Review의 정보를 공유하는 구조가 문제를 해결하는데 더 우수한 latentvector생성

profile
AI Engineer
post-custom-banner

0개의 댓글