[Node.js/Python] IBCF 레시피 추천 시스템 구현 (1) - 개념 잡기

오진서·2023년 3월 2일

개인 정리용으로 정확하지 않은 부분이 있을 수 있습니다.

프로젝트에는 어떤 것을 적용할까?

현재 내가 하고 있는 프로젝트에서는 사용자가 레시피 페이지에 방문한 날짜, 페이지에 체류한 시간 (timeSpent), 즐겨찾기한 레시피 페이지 (favorite), 레시피 좋아요 (like)의 데이터로 협업 필터링을 통해 다른 레시피 페이지를 추천하고자 한다. 협업 필터링을 선택한 이유는 레시피에 대한 데이터를 DB에 갖고 있지 않고, 웹 사이트를 파싱하여 가져오는 구조이기 때문이다. 협업 필터링은 사용자의 행동에만 의존할 수 있기 때문에 아이템의 내용이나 특성을 몰라도 된다.

그리고 아이템 기반 협업 필터링으로 진행하기로 결정했다. 현재 하고 있는 프로젝트 같은 경우 사용자는 적고, 사용자가 방문한 레시피 페이지는 매우 다양하다. 즉, user는 적고, item이 많은 상황이다. 여기서 만약 사용자 기반 협업 필터링을 사용한다고 가정해보면, 유사도 측정을 위해 아래와 같은 user(행)-item(열) 행렬을 사용하게 된다. 그리고 사용자 간의 유사도를 계산하기 위해 각 사용자가 방문한 레시피 페이지 (아이템)들을 비교해보면 행렬의 희소성 문제로 추천이 정확하지 않을 수 있다.

	Item2	Item4	Item5	Item10
User1	0	0	3	0
User2	4	0	0	2
User3	0	2	0	0

반면에, 아이템 기반 협업 필터링을 사용한다면, 모든 아이템 간의 유사도를 계산하는 것이 가능하기 때문에 희소성 문제가 해결될 수 있다. 또한 대부분의 사용자들이 비슷한 레시피 페이지를 방문할 확률이 높으므로 더 정확한 추천 결과를 제공하겠다는 생각을 했다.

아이템 기반 협업 필터링 (Item-based CF)의 유사도 측정

아이템 기반 협업 필터링에서는 아이템 정보 데이터를 벡터 형태로 표현해 아이템간 유사도를 계산해야 한다. 그리고 아이템 간의 유사도를 통해 특정 아이템과 비슷한 아이템을 추천할 수 있다. 벡터의 유사도를 구하는 방법에는 여러가지가 있는데 몇 가지를 알아보면 다음과 같다.

유클리드 거리 : 두 벡터 사이의 직선 거리를 계산하여 유사도 측정

코사인 유사도 : 두 벡터 사이의 각도를 계산하여 유사도 측정

피어슨 유사도 : 두 벡터 사이의 상관 관계 (경향성)을 계산하여 유사도 측정

이외 사용자가 봤다/안봤다, 샀다/안샀다 등의 이진 값을 가진 경우 자카드 유사도를 사용한다.

유사도 계산 방법을 선택할 때는 추천 시스템 목적과 데이터에 따라 달라진다. 나는 이중 하나인 코사인 유사도 방식를 써보기로 했다. 아이템 기반 협업 필터링에서 주로 사용되는 것도 코사인 유사도 방식이라 한다.

코사인 유사도란?

코사인 유사도는 두 벡터 사이의 각도의 코사인값을 계산해서 두 벡터의 방향이 얼마나 유사한지를 나타낸다. 중요한 것은 코사인 유사도는 벡터의 길이 (크기)에 상관 없이 벡터 간의 방향성에만 초점을 둔다. 즉, 이 말은 사용자가 아이템들에 대해 평가한 양 (벡터의 크기)에 대해서는 고려하지 않고, 아이템들을 평가한 패턴 (벡터의 방향)에 대해 초점을 둔다는 얘기이다. 만약 벡터의 크기도 중요시하는 추천시스템에서는 유클리드 거리 방식을 사용하면 된다.

코사인 유사도 공식은 아래와 같다.

분자는 벡터의 내적을, 분모는 두 벡터 크기(norm)의 곱을 나타낸다. 코사인 유사도를 이해하기 위해서는 벡터의 내적을 이해해야 한다.

벡터 내적이 나온 이유는 두 벡터 사이의 사잇각을 구하기 위해 직각삼각형을 만들어야하기 때문이다. 위 그림에서 코사인 법칙으로 사잇각을 알아내려면 |a|의 길이를 알아내야한다. |a|는 a벡터를 b벡터 위로 정사형시킨 길이이다. 정사형은 어느 쪽을 하든 상관없다. 결국 벡터 내적을 구해서 |a| 또는 |b|를 나누면 직각삼각형에서 코사인 법칙으로 사잇각을 알아낼 수 있다.

이제 코사인 각을 가지고 유사도를 측정할 수 있다. 아래 코사인 그래프에서 각도가 0이면 코사인은 1의 값을 갖고, 180도일 때 -1의 값을 갖는다. 즉, 두 벡터 간의 코사인각이 0에 가까울수록 두 벡터가 유사하게되고 유사도는 1에 가까워진다. 반대로 코사인 각이 180에 가까울수록 두 벡터는 정반대의 방향을 가리키므로 유사도가 -1에 가까워진다.

레시피 페이지 추천 아이템 기반 협업 필터링 (Item-based CF) 구현

프로젝트 구현 목표는 특정 레시피 id와 가장 유사한 레시피 id 5개를 item간 유사도를 계산하여 추천하는 것이다. 유사도 계산할 때는 데이터 전처리와 가중치 계산이 필요하므로 데이터 분석에 특화된 python을 사용하였다. 그러기 위해서 node.js 서버와 python과의 통신이 필요하므로 Redis 메시지 브로커를 사용하여 데이터 전송을 처리했다. 전체 흐름은 아래와 같다.

💡workflow

node.js 서버로 /recommendations/:id?recipeId=?로 get요청이 들어오면, 사용자들이 페이지에 체류한 시간, 즐겨찾기, 좋아요를 누른 데이터들과 추천 대상인 레시피 id를 Redis 채널 (recommendation_request)에 publish 한다.

python 스크립트에 Redis 리스너 (recommendation_request 구독)에서 받은 데이터로 pandas 데이터 프레임을 생성하고 데이터 전처리와 함께 레시피 id 간의 코사인 유사도를 계산하고 가장 유사한 레시피 id 5개를 선택해서 Redis 채널 (recommendation_response) publish한다.

node.js 서버에서 Redis 리스너 (recommendation_response 구독)에서 데이터를 받고, 5개의 유사한 레시피 id를 json으로 클라이언트에 응답한다.

글이 길어져 구현 부분은 다음 글에서 작성해야겠다..

[Node.js/Python] IBCF 레시피 추천 시스템 구현 (2) - 구현