추천 엔진(추천 시스템)

정지호·2022년 9월 5일

개인 실습 진행

목록 보기

35/41

TF-IDF 문제점

정확하게 동일한 단어가 나와야 유사도 계산이 이루어짐 (동의어 처리가 안됨)
단어의 수가 늘어나고 아이템의 수가 늘어나면 계산이 오래 걸림
결국 '워드 임베딩'을 사용하는 것이 더 좋음(아니면 LSA와 같은 차원 축소 방식 사용)

추천 엔진 아키텍처
1. 추천엔진의 기본적인 구조(전체 추천 페이지 레벨)

협업 필터링 소개

기본적으로 다른 사용자들의 정보를 이용하여 내 취향을 예측하는 방식
크게 세 종류가 존재
1. 사용자 기반(나와 비슷한 평점 패턴을 보이는 사람들을 찾아서 그 사람들이 높게 평가한 아이템 추천)
2. 아이템 기반(평점의 패턴이 비슷한 아이템들을 찾아서 그걸 추천하는 방식)
3. 예측 모델 기반(평점을 예측하는 머신러닝 모델을 만드는 것)
구현하는 방식에는 크게 두 종류가 존재
1. 메모리 기반
- 코사인 유사도나 피어슨 상관계수 유사도를 사용해 비슷한 사용자 혹은 아이템을 찾음 -> 평점의 예측 없이 유사도 기반으로 추천할 아이템을 결정하는 방식
- 평점을 예측할 때는 가중치를 사용한 평균을 사용
- 이해하기 쉽고 설명하기 쉽지만 스케일하기 힘듬(평점 데이터의 부족)
- 보통 Top-N(혹은 nDCG) 방식으로 평가(사용자가 좋아한 아이템을 일부 남겨두었다가 추천 리스트에 포함되어 있는지 보는 방식. 추천 순서를 고려해 평가하면 nDCG)
  2. 모델 기반
- 머신 러닝을 사용해 평점을 예측(PCA, SVD, 딥러닝 등등/ 딥러닝의 경우에는 오토인코더를 사용하여 차원을 축소)
- 행렬의 차원을 줄임으로써 평점 데이터의 부족 문제를 해결
- 하지만 어떻게 동작하는지 설명하기 힘듦(머신 러닝이 갖는 일반적인 문제)
- 머신러닝 알고리즘들이 사용하는 일반적인 방식으로 성능 평가 가능
- 메모리 기반에서 사용하는 Top-N이나 nDCG 방식도 사용가능
  3. 온라인 테스트 (A/B 테스트)
- 가장 좋은 방식은 실제 사용자에게 노출시키고 성능을 평가하는 것
  4. 메모리 기반 vs 모델 기반
- 메모리 기반은 유사도 함수를 기반으로 비슷한 사용자나 아이템을 검색(KNN 방식도 여기에 속한다 볼 수 있음/ 평점을 예측하는 것이 아니라 유사도 기반으로 추천)
- 모델 기반은 어떤 비용 함수를 기반으로 학습(즉 머신러닝 / SVD++를 사용하여 (딥러닝처럼) 학습 / 딥러닝에서는 오토인코더를 사용하여 사용자 아이템 행렬의 패턴을 배운다.)
- 오토인코더란, 딥러닝에서 데이터 차원을 축소하는 방식으로, 인코딩을 통해 데이터를 압축하고 디코딩을 통해 데이터를 복구한다. 인코딩을 하는 부분이 결국 차원 축소를 담당
- SurpriseLib 소개
- 협업 필터링과 관련한 다양한 기능을 제공하는 라이브러리
- KNNBasic 객체 이용해서 사용자 기반 혹은 아이템 기반 협업 필터링 구현
- SVD 혹은 SVDpp 객체를 이용해서 모델 기반 협업 필터링
- 협업 필터링 알고리즘의 성능 평가를 위한 방법 제공
- scikit-learn 사용법과 비슷

사용자의 유사도 측정
1. 사용자들을 벡터로 표현
2. 지정된 사용자와 다른 나머지 사용자들과 유사도 측정
3. 사용자 대 아이템 행렬을 사용자간 유사도 행렬로 변환
아이템의 유사도 측정
1. 주어진 아이템을 기반으로 가장 비슷한 아이템을 찾아서 추천
  - i가 메인 아이템, j는 비교 대상이 되는 아이템
  - 최종적으로 i와 유사도가 가장 큰 j를 추천 (N개)
  - 아이템 i와 j간의 유사도 측정 -> 아이템 대 사용자 행렬을 아이템간 유사도 행렬로 변환

=> 협업 필터링에는 사용자 기반과 아이템 기반으로 유사도를 바탕으로 추천을 하는 메모리 방식과, 평점을 예측하여 추천하는 모델 방식이 존재한다.
=> Surprise 라이브러리를 사용하여 사용자 기반과 아이템 기반 협업 필터링을 구현한다!!!

SVD 알고리즘(SVD를 사용해서 아이템 기반 평점을 행렬 기반으로 예측할 수 있음)
- 사용자, 아이템 기반 협업 필터링의 문제점
  1. 확장성: 큰 행렬 계산은 여러모로 쉽지 않음(물론 아이템 기반으로 가면 계산량이 줄어듦 / 물론 Spark을 사용하면 큰 행렬 계산도 얼마든지 가능)
  2. 부족한 데이터(많은 사용자들이 충분한 수의 리뷰를 남기지 않음)
- 해결책
  => '모델 기반 협업 필터링' : 머신 러닝 기술을 사용해 평점을 예측. 입력은 사용자-아이템 평점 행렬
  1. 행렬 분해 방식
    - 협업 필터링 문제를 사용자-아이템 평점 행렬을 채우는 문제로 재정의(사용자 혹은 아이템을 적은 수의 차원으로 기술함으로써 문제를 간단화)
    - 가장 많이 사용되는 행렬 분해 방식으로 PCA / SVD 혹은 SVD++
    - PCA(Principal Component Analysis): 차원을 축소하되, 원래 의미는 최대한 그대로 간직
    - SVD(Singular Vector Decomposition): 2개 혹은 3개의 작은 행렬의 곱으로 단순화. PCA와 같은 차원 축소 알고리즘이지만 다른 방식이다. (그림: SVD)
    - SVD++
    : SVD나 PCA는 완전하게 채워져 있는 행렬의 차원수를 줄이는 방식
    : SVD++는 sparse 행렬이 주어졌을 때 비어있는 셀들을 채우는 방법을 배우는 알고리즘으로, 채워진 셀들의 값을 최대한 비슷하게 채우는 방식으로 학습한다(에러률을 최소화). 보통 RMSE의 값을 최소화 하는 방식으로 학습하면서 SGD 를 사용
    : surprise 라이브러리를 사용하거나 사이킷런의 TruncatedSVD를 사용한다.
  2. 딥러닝 방식

오토인코더
- 대표적인 비지도학습을 위한 딥러닝 모델
- 데이터의 숨겨진 구조를 발견하면서 노드의 수를 줄이는 것이 목표
- 입력 데이터에서 불필요한 특징들을 제거한 압축된 특징을 학습하려는 것
- 오토인코더의 출력은 입력을 재구축한 것임 {최대한 비슷하게 나오도록 학습 / 입력 데이터와 예상 출력 데이터가 동일(입력==레이블)}
- 오토인코더의 구조: 출력층의 노드 개수와 입력층의 노드 개수가 동일해야 함 / 은닉층의 노드 개수가 출력층과 입력층의 노드 개수보다 작아야 함
- 이렇게 학습된 은닉층의 출력을 입력을 대신하는 데이터로 사용(데이터의 크기 축소) (그림 참고. 그림에서 A 대신 B 사용)

케라스(Keras)
- 오픈소스 딥 러닝 라이브러리(구글에서 시작)
- 다양한 프레임웍 위에서 동작하는 상위레벨 딥러닝 프레임웍(텐서플로우, MXNet 등 지원)
- TensorFlow 위에서만 동작하는 라이브러리도 있음( 'from tensorflow import keras' vs 'import keras')
- Keras API를 사용하는 세 가지 방법
  1. Sequential 모델 API(가장 간단하며 가장 많이 사용됨 / 하나의 입력 데이터, 하나의 출력 데이터, 순차 레이어 스택을 지원)
  2. Functional API (레고 블록 모델 / 다중 입력 데이터, 다중 출력 데이터, 임의의 그래프 구조 지원(텐서플로우와 흡사) / Sequential 모델에 비해 복잡
  3. Model Subclassing(가장 Flexible 하지만 가장 복잡)

정지호

이전 포스트

모델 기반 협업 필터링 - SVD / RSME와 MAE

다음 포스트

추천 엔진(추천 시스템)

개인 실습 진행

추천 엔진 정의

추천 엔진 예제

추천 엔진 알고리즘 종류

유데미 추천 살펴보기

인기도 기반 추천 유닛 개발

유사도 측정

TF-IDF 문제점

협업 필터링 소개

모델 기반 협업 필터링 - SVD / RSME와 MAE

Pandas로 불러온 데이터 살펴보기(각종 함수들 설명)

0개의 댓글