📌 개요
- 사회적 설정은 신뢰와 같은 인간 관련 요인들로 인해 만들어진다.
- 사용자가 피드백 과정에 참여하는 자의 신원을 알고 있을 때 신뢰 요소가 중요한 역할을 하게 된다.
추천 시스템의 사회적 컨텍스트
- 사회적 컨텍스트가 컨텍스트 인식 추천 시스템에서 맡는 특별한 역할 : 소셜 정보가 추천 과정의 효율성을 향상시키기 위해 사이드 정보로 사용되는 사회적 맥락이다.
- 추천 과정에서 소셜 네트워크의 구조를 사용할 필요 없이 다차원 모델로 직접 처리할 수 있다.
- 네트워크 중심과 신뢰 중심적 관점에서의 사회적 맥락 : 사회적 구조는 추천 과정에 유용한 사회 신뢰 네트워크로 볼 수 있다.
- 사용자 주변의 네트워크 구조 및 관심사는 추천 과정에서 중요한 역할을 한다.
- 신뢰 요소는 특히 중요한 것이 사용자의 개인화된 관심사를 과거에 신뢰했던 다른 사용자의 평점 패턴을 통해 더욱 잘 예측할 수 있기 때문이다.
- 사용자 상호작용 관점 : 소셜 네트워크에서의 사용자 상호작용은 댓글이나 태그와 같은 다양한 형태의 피드백을 말한다.
- 태그는 공동으로 콘텐츠를 추가하고 분류하는 것으로 볼 수 있으며,
이러한 분류는 매우 유익하며 추천 과정을 개선하는 데 사용될 수 있다.
- 다음 방법들은 완전히 다른 추천 설정과 데이터가 적용된다.
- 소셜 추천 시스템은 소셜 참여자가 컨텍스트 역할을 하는지, 피어 추천 모델 또는 상호작용 데이터의 공급자로 역할을 하는지에 따라 다양한 관점에서 이해할 수 있다.
📌 사회적 맥락을 위한 다차원 모델
- 다차원 모델은 추천 과정 내 소셜 정보를 통합하는 가장 간단한 방법이다.
- 이 접근 방식은 축소 기반 접근 방식을 사용해 기존의 협업 필터링 모델을 재사용할 수 있다는 장점이 있다.
사회적 컨텍스트에 대한 데이터를 수집하는 일반적인 방법
- 명시적 피드백 : 시스템은 영화의 평점과 같이 영화를 시청한 사람에 대한 세부 정보와 같은 다양한 유형의 정보를 포착하도록 설계됐을 수 있다.
- 이 방법의 주요 과제는 사용자가 일반적으로 평점을 제공하면서 이러한 컨텍스트 세부 정보를 지정하는 데 너무 많은 노력을 기울일 의향이 없다는 것이다.
- 그럼에도 명시적 피드백을 통해 이러한 데이터를 수집한다면 결과는 일반적으로 고품질이다.
- 따라서 가능한 첫 번째 선택으로 간주돼야 한다.
- 암시적 피드백 : 사용자의 사회적 맥락은 항목이 어디에서, 언제, 어떻게 구입됐는지 또는 사용자의 다른 사회 활동에서도 유추될 수 있다.
- 그림 11.1은 사회적 컨텍스트를 가진 3차원 평점 행렬의 예를 보여준다.
- 여기서 항목은 관광 위체에 해당하고, 컨텍스트는 여행 동반자에 해당한다.
- 어린이와 함께 방문하기에 가장 좋은 목적지를 결정하기 위햏 ㅏ나의 원래의 3차원 평점 행렬에서 2차원 면으로 추출할 수 있으며, 그림 11.1의 빗금 친 부분에 해당한다.
- 2차원 행렬에 표준 협업 필터링 알고리듬을 적용할 수 있다.
- 여러 여행 동반자가 있는 경우 각 컨텍스트에 대한 데이터에 해당하는 큐브 조각을 추출할 수 있으며 특정 사용자 항목 조합에 대한 서로 다른 컨텍스트 값을 통해 평점을 다음과 같이 평균화 할 수 있다.
- 문제는 다시 사회적 컨텍스트 집합 내에서 평균 슬라이스를 사용해 2차원 케이스로 감소될 수 있다.
- 쿼리는 다차원 컨텍스트와 유사한 방식으로 취할 수 있다.
📌 네트워크 중심과 신뢰 중심 방법론
- 네트워크 중심 방법의 기본 아이디어는 사용자의 우정 구조가 자신의 취향, 선택 또는 소비 패턴에 큰 영향을 미친다는 것이다.
- 소셜 연결은 서로 연결된 사용자가 종종 비슷한 관심사와 취향을 가지고 있다는 원리이다.
- 취향의 유사도는 사용자가 다른 사용자보다 연결된 사용자의 추천을 신뢰하도록 유도한다.
- 이러한 링크는 앱의 도메인에 따라 효율성이 다를 수 있지만 특정 사용자의 평점 정보가 거의 없는 콜드 스타트의 경우 특히 유용하다.
📖 신뢰 네으퉈크 구축을 위한 데이터 수집
- 신뢰와 동종 선호는 모두 사회적 추천 과정에서 중요한 역할을 한다.
- 동종 선호는 소셜 네트워크에서 연결된 사용자 간의 취향과 관심사 측면에서 서로 비슷할 가능성이 높다는 말이다.
- 신뢰는 사용자가 친구의 취향과 추천을 신뢰할 가능성이 더 높다는 사실을 의미한다.
- 연결된 사용자는 서로 유사한 경향이 있기 때문에 서로의 취향과 추천을 신뢰하는 경향이 있다.
- 사용자 i와 사용자 j가 연결되지 않은 경우 둘 사이의 신뢰가 정의되지 않으며,
정의되지 않은 값은 신뢰전파 방법론을 통해 유추할 수 있다.
일부 네트워크에서는 사용자가 신뢰 링크를 지정한다.
1. 골벡의 필름트러스트 시스템에서 사용자는 평점을 제공하는 것 외에도 지인의 평점에 대한 신뢰를 평가하도록 요청 받는다.
2. Epinions 사이트에서 사용자는 신뢰하거나 불신하는 다른 사용자를 지정하라는 요청을 받는다.
3. Moleskiing 사이트에서 사용자간 신뢰 정보는 명시적 피드백을 통해 얻어진다.
- 신뢰 관계가 암시적으로 유추되거나 사용자가 명시적으로 지정한다면 모든 경우에 신뢰 네트워크를 만들 수 있다.
- 신뢰 인식 추천 시스템은 신뢰 네트워크 내 지식을 사용해 개인화되고 정확한 추천 내용을 만들 수 있다.
- 대부분은 신뢰 집계 및 신뢰 전파라고 하는 특수 연산자를 사용한다.
- 여기서 활용되는 메커니즘은 신뢰 네트워크 내 전이성을 사용하는 두 사용자 간의 알 수 없는 신뢰 수준을 추정한다.
- 신뢰 메트릭은 기존의 신뢰 관계를 기반으로 한 사용자가 다른 사용자를 얼마나 믿어도 될지 추정한다.
- 신뢰 관계는 비대칭이기 때문에 대부분의 신뢰 기반 알고리듬은 계산 중에 선의 방향을 고려한다.
📖 신뢰 전파 및 집계
- 신뢰 전파 및 집계는 신뢰 네트워크가 모든 사용자끼리 신뢰 관계가 존재하지 않는 드물게 지정돼 있는 경우에 활용된다.
- 따라서 신뢰 관계의 전이도는 전파 및 집계와 같은 연산자의 사용과 함께 누락된 신뢰 관계를 유추해야 한다.
- 추론을 하기 위해서는 신뢰 네트워크의 경로를 결정해야한다.
- 경로의 끝 점에서 두 노드 간의 알 수 없는 신뢰 값을 결정하는 것을 신뢰 전파라고 한다.
- 그림 11.2의 단순 신뢰 네트워크에서 선의 신뢰 값이 (0,1)로 그려지는 것을 가정한다.
- 밥에 대한 앨리스의 신뢰를 정량화 할 때, 앨리스는 소스이고 밥은 싱크이다.
신뢰 전파 및 집계 연산자는 다음과 같이 계산된다.
- 단일 경로를 따라간 신뢰 전파 : 두 끝점 간의 신뢰를 구하기 위해서 선간의 신뢰 값이 곱해진다.
- 많은 방법론은 신뢰 감소를 사용해 긴 경로를 덜 강조하거나 간단하게 짧은 경로만을 사용한다.
- 예를 들어 사용자가 정의한 감쇠 인자 β < 1은 계산된 신뢰 값을 β^q와 곱하는데 사용되며, 여기서 q는 전파 경로 길이이다.
- 여러 경로에 걸친 신뢰 집계 : 신뢰 집계에서 다양한 경로에 대해 전파된 값은 최소, 최대, 평균, 가중 평균 또는 가중 합계와 같은 단일 값으로 집계된다.
- 신뢰 전파 및 집계는 기존에 있는 데이터에 관계 없이 고정 추론을 사용하기 때문에 신뢰 중심 시스템 내 추천에서 비지도 방법론에 해당한다.
- 지도 방법론은 행렬 인수분해와 같은 낮은 순위 표현을 사용해 이러한 종속성을 학습한다.
📖 신뢰 전파가 없는 단순 추천
- m 사용자와 n 아이템에 대한 m x n 평점 행렬 R과 신뢰 관계를 나타내는 m x m 신뢰 행렬 T가 있다고 가정한다.
- 아이템 j에 대한 사용자 i의 평점을 예측하는 간단한 방법은 사용자 i의 피어 그룹, 즉 주어진 임계치 θ 이상의 임계값으로 사용자 i의 신뢰를 받으며 아이템 j를 평가한 모든 사용자 N(i , θ)을 정의하는 것이다.
- 그런 다음 이웃 기반 방법론에 자주 사용되는 수식을 사용한다.
- 이 방법은 Pearson 상관계수 대신 신뢰 값이 사용되는 이웃 방법론의 사용자 기반 버전으로 볼 수 있다.
- 수식은 신뢰 값 가중 평균이라고도 한다.
- 다른 방법은 평점을 중심에 두기 위해서 기존의 협업 필터링에서처럼 각 사용자 k의 평균 평점을 사용하는 것이다.
📖 TidalTrust 알고리듬
- TidalTrust 알고리듬은 짧은 경로가 전파에 더 안정적이라는 관점을 기반으로 한다.
- 따라서 소스-싱크 쌍 사이의 가장 짧은 경로를 신뢰 계산에 사용해야 한다.
알고리듬 요약
- 전진 단계 : 소스 i와 싱크 j 사이의 신뢰 계산에 관련이 있는 것으로 간주되는 신뢰 값에 대한 최소 임계값 β(i , j)를 결정하는 것이다.
- 소스에서 싱크까지의 모든 가장 짧은 경로는 이 단계에서 너비 우선 탐색을 통해 결정된다.
- 소스 i에서 싱크 j까지의 가장 짧은 경로의 하위 그래프는 항상 사이클이 없는 방향성 비순환 그래프이다.
- 후진 단계 : 싱크 노드 j에서 시작해, 하위 그래프의 선을 이용하며 소스 노드까지의 거리를 역순으로 처리하며 노드들이 이루어진다.
- 가장자리 (q , i)가 신뢰 네트워크에 없는 경우라면 사용자 노드 q와 싱크 노드 j 사이의 예측된 신뢰 값은 신뢰 값이 적어도 β(i , j)인 하위 그래프의 선만을 사용해 재귀적으로 계산된다.
- 이 접근 방식은 다양한 소스-싱크 쌍을 통해 반복 돼야 한다.
- 전진 단계에서는 너비 우선 탐색의 변형된 버전이 가장 짧은 경로 하위 그래프의 방향성 비순환 그래프를 계산하기 위해 노드 i에서 시작된다.
- 표준 너비 우선 탐색과의 차이점은 노드의 주어진 노드의 자식 노드인지 확인하기 위해 이전에 방문했던 이웃을 확인한다.
- 소스 i는 거리 값 d(i)를 0으로 지정한다.
- 다른 모든 거리는 무한대로 지정한다.
- L의 모든 나가는 방향의 이웃은 거리 값 1로 지정되고 목록 L에 추가된다.
- 각 반복에서 L에서 가장 작은 거리의 레이블을 가지고 있는 d(q)의 노드 q가 선택된다.
- 나가는 방향의 가장자리에 있는 각 이웃 k에 대한 레이블은 다음과 같이 수정된다.
- 예를 들어 그림 11.3(a)에서의 신뢰 네트워크에 대한 가장 짧은 경로를 나타내는 하위 그래프는 그림 11.3(b)에 있다.
- 소스 노드 1과 싱크 노드 8 사이의 경로는 관련이 없기 때문에 그림 11.3(b)에서 노드 6은 누락됐다.
- 가장 짧은 경로에 위에 있지 않은 가장자리들도 원래 그래프에서 누락됐다.
- 하위 그래프에서의 소스부터 싱크까지의 경로에 대한 최소 가중치 가장자리가 결정된다.
- β(i , j)의 값은 이러한 다양한 최솟값들의 최댓값으로 설정된다.
- 또한 전진 단계 동안 동적 프로그래밍 접근법은 β(i , k)의 중간 값을 추척해 β(i , j)을 효율적으로 계산하는 데 사용할 수 있다.
- 각 k ≠ i에 대해 β(i , j) = ∞ 및 β(i , k) = 0으로 초기화한다.
- 전달받은 가장자리 (q , k) 때문에 노드 k의 레이블이 과하게 감소한다면 다음 업데이트가 실행된다.
- 아이템의 최종 평점은 식 11.1과 유사한 방식으로 신뢰 가중 평균으로 계산된다.
- 주요 차이점은 노드 i의 이웃의 관측된 신뢰 값 뿐만 아니라, 예측된 값도 식 11.3의 우변에 쓰일 수 있다는 점이다.
- Ii는 사용자 i에 의해 평가된 아이템의 인덱스라고 할 때 11.3은 다음과 같이 수정된다.
📖 MoleTrust 알고리듬
- TridalTrust 알고리듬은 각 소크-싱크 쌍에 대해서 전진 단계를 사용한 후 후진 단계를 사용하는 반면 MoleTrust 알고리듬은 각 소스 노드에 대한 두 개의 전진 단계를 사용한다.
- TidalTrust 알고리듬의 전진 및 후진 단계의 적용은 특정 소스에서 특정 싱크까지의 신뢰도 값을 계산할 수 있는 반면 MoleTrust 알고리듬은 소스 i에서 다른 모든 노드까지의 신뢰 값을 계산할 수 있다.
- MoleTust에서는 싱크가 지정되지 않았기 때문에 최단 경로를 계산을 마치기 위해서는 최대 경로 길이 δ가 다른 기준으로 사용된다.
알고리듬 요약
- 전진 단계 1 : 최대 δ 내, 소스 노드 i에서 시작하는 모든 최단 경로를 결정한다.
- 종료 기준은 싱크 노드에 도달하는 것이 아니라 최대 경로 길이를 기반으로 한다는 점을 제외하면 TidalTrust에서와 마찬가지로 수정된 너비 우선 방법론을 사용한다.
- 모든 가장자리가 이 가장 짧은 경로 중 하나에는 놓여져 있는 방향성 비순환 그래프를 결정한다.
- 전진 단계 2 : 알고리듬은 모든 k에 대해 신뢰 예측값을 설정해, 가장자리 (i , k)가 하위 그래프에 나타나도록한다.
- 이는 소스 노드 i로부터 거리 1에 있는 노드들을 나타낸다.
- 그런 다음 더 긴 거리의 소스와 노드 간의 신뢰 값이 계산된다.
- 하위 그래프의 소스 노드 i에서 거리 2 이상의 모든 노드 q인 신뢰 값은 다른과 같이 계산된다.
- 모든 신뢰 값을 계산한 후 식 11.8을 사용해 평점을 예측한다.
- 그림 11.4는 그림 11.3(a)에 대한 최대 길이 2인 방향성 비순환 하위 그래프를 나타낸다.
- TidalTrust 알고리듬에서는 소스 노드 밖의 거리에 있는 노드간의 신뢰 값은 계산할 수 없다.
- 이러한 신뢰 값은 암시적으로 0으로 설정된다.
- MoleTrust는 각 소스-싱크 쌍이 아니라 각 소스 노드에 한 번만 적용하기 때문에 TidalTrust보다 더 효율적이다.
📖 TrustWalker 알고리듬
- TrustWalker 알고리듬은 소셜 네트워크 링크가 평점에 대해 독립적 정보의 원천을 제공한다는 점을 기반으로 한다.
- 따라서 유사한 사용자를 검색하는 데에는 무작위 행보 방법론이 사용된다.
- 주요 딜래마는 무작위 행보에서 너무 멀리 갈 경우 전혀 관련 없는 사용자도 활용될 수 있다는 것이다.
- TrustWalker 방법론은 신뢰 기반의 사용자 유사도와 통합된 무작위 행보 프레임워크 내 아이템 기반의 협업 필터링 모델의 조합이다.
알고리즘 단계
- 알고리듬은 아이템 j에 대한 평점을 결정하기 위해 소스 사용자 i를 시작으로 한다.
- 무작위 행보의 각 단계에서 방문한 사용자 k가 아이템 j를 평가했는지 여부를 확인한다.
- 실제로 평가했다면 관찰된 평점이 반환되지만, 그렇지 않으면 알고리듬은 무작위 행복에서 다시 시작하는 수정된 버전의 두가지 선택이 있다.
- 무작위 행보의 l 단계에서 알고리듬은 확률 Φkjl로 노드 k에서 종료될 수 있다.
이러한 경우 j와 유사한 임의의 아이템에 대한 사용자 k의 평점이 반환된다.
- 확률 (1 - Φkjl)로 무작위 행보는 k의 이웃과 연결된다.
- 무작위 행보는 여러 번 반복되며, 평점은 다양한 행보의 확률적인 방식으로 평균화된다.
- 재시작 확률 Φkjl은 현재 방문한 사용자 k, 아이템 j와 단계 l 수에 따라 달라진다.
- 종료 확률 Φkjl의 값은 소스 사용자와 멀리 떨어져 있는 약한 신뢰 관계의 사용자의 사용을 피하기 위해 단계 l의 수에 따라 증가한다.
- k가 평가한 유사한 아이템이 신뢰할 만한 예측을 제공할 것이라 확신한다면 종료 확률도 높아야 한다.
- 따라서 전체 종료 확률은 다음과 같이 설정된다.
- 아이템-아이템 유사도가 결정돼야 한다.
- 두 아이템 간의 유사도를 계산하기 위해 피어슨 상관계수의 할인된 버전이 사용된다.
- 양수 상관관계가 있는 아이템만 고려된다.
- 할인 인자는 아이템을 평가하는 공통된 사용자의 수가 적을 때 유사도 값이 감소되도록 설정된다.
- 따라서 Njs 평가자가 공통으로 있는 두 아이템 j와 s에 대해서는 다음과 같이 나타낼 수 있다.
📖 링크 예측 방법론
- 링크 예측 방법은 평점의 정확한 값을 예측하는 대신 추천 항목의 순위 목록이 필요한 경우에 유용하다.
- 대부분의 링크 예측 방법론은 가장자리의 추천 순위를 매기는 것을 잘하고 가장자리마다의 가중치를 정확히 예측하는 것은 잘 하지 못하기 때문이다.
- 기존의 협업 필터링은 사용자-아이템 그래프의 링크 예측 문제로 제기될 수 있다.
- 이 경우 사용자-아이템 그래프는 다양한 사용자 간의 링크와 많은 소셜 링크로 보강돼야 한다.
- 소셜 링크로 사용자-아이템 그래프를 보강해 협업 필터링 프로세스에서 소셜 정보를 사용할 수 있도록 한다.
- 사용자-아이템 그래프는 항목 노드로 보강된 소셜 네트워크 그래프라 볼 수 있다.
- 그림 11.5(b)에서 단일 평점 행렬의 예가 있다.
- 해당 사용-아이템 그래프는 11.5(c)에 나와 있다.
- 소셜 연결이 있는 사용자-아이템 그래프는 그림 11.5(d)에 나와 있다.
- 그림 11.5(d)의 그래프는 그림 11.5(a)와 (c)의 결합 그래프이다.
- 소셜 링크는 사회적 관계의 강도 또는 해당 사회적 행위자 사이의 신뢰의 수준에 따라 가중치를 부여받는다.
- 링크 예측 방법을 사용해 아이템에 대한 사용자 선호도를 결정할 수 있다.
- 아이템에 대한 사용자 예측 링크의 강도는 사용자에 대한 순위 아이템 리스트를 만들기 위해 순위를 매겨지게 된다.
- 암시적 평점의 경우 모든 링크 가중치가 음수가 아니기 때문에 기존의 링크 예측 방법론이 쓰일 수 있다.
- 10.4.6절의 접근 방식과 유일한 차이점은 사용자-아이템 그래프가 소셜 연결을 통해 강화된다는 점이다.
- 이 방법을 사용하는 데 문제가 될 수 있는 한가지는 소셜 링크와 사용자-아이템 링크가 특정 적용에도 똑같이 중요하지는 않을 수 있다는 것이다.
- 이 문제를 해결하기 위해 모든 소셜 링크의 가중치에 매개 변수 λ를 곱한다.
- λ의 값은 소셜 링크와 사용자-아이템 링크 간의 상대적 중요도를 조절하며,
예측 정확도를 최대화하기 위해 교차 유효성 검사를 사용해 λ의 최적 값을 선택한다.
- 이진 평점 행렬의 예는 그림 11.5(e)에 나타나 있고, 사회적 면이 보강된 사용자-아이템 그래프는 그림 11.5(f)에 나와 있다.
- 부정적인 소셜 링크를 사용해 이러한 예측에서의 불신 관계를 포함시킬 수도 있다.
- 링크 예측 방법론의 좋은 측면 중 하나는 신뢰 전파와 휴리스틱 집계의 명시적 사용을 필요로 하지 않는다는 것이다.
- 사용자 신뢰와 그에 따른 선호도의 타동성은 머신러닝 알고리듬을 통한 데이터 주도 관점에서 이미 학습되기 때문이다.
- 많은 링크 예측 방법론은 무방향 네트워크로 설계돼 있다.
- 사용자-사용자 링크는 명시된 신뢰 관계를 기반으로 비대칭이고 유방향이라고 가정할 수 있다.
- 반면 사용자-아이템 링크는 언제나 사용자부터 아이템까지 유방향이다.
- 지도 학습 방법론이나 행렬 인수분해 방법론은 유방향 링크 예측에 쓰일 수 있다.
- 링크 예측 방법론은 다양한 시나리오에 대해서 매우 일반적인 프레임워크를 제공한다.
📖 행렬 인수분해 방법론
- 행렬 인수분해 방법론은 링크 예측과 밀접한 연관이 있다.
- R과 T는 모두 매우 희소한 불완전한 행렬이다.
- SR 및 ST를 이러한 행렬에서 관찰된 인덱스라고 해보자.
- SoRec 알고리듬은 소셜 정보가 포함되면서 행렬 인수분해 방법의 확장 버전으로 볼 수 있다.
- 관찰할 값에 대해서 다음과 같은 조건을 거의 충족하게 된다.
- 소셜 정보를 통합하기 위해 두 번째 m x k 사용자-요인 행렬 Z를 도입하고 관찰된 신뢰 값은 다음과 같은 조건이 충족된다.
- 두 개의 사용자-계수 행렬이 사용되는 이유는 행렬 U는 유발자이고 Z는 수신자이기 때문이다.
- 유발자는 신뢰를 할지 말지 결정한느 참여자이고, 수신자는 신뢰/불신을 받는 참여자이다.
- 유발자 역할의 사용자 행렬 U는 양쪽 분해에 다 참여된다.
- 유발자는 수진자와 달리 싱크에 대한 소스의 신뢰를 표현할 수 있는 의견이 평점 예측에 사용되기 때문에 공유되고 있다.
- 전체 목적함수가 다음과 같이 정의될 수 있다.
- 파라미터 β는 두 분해의 각 오류에 대해 어느 정도의 가중치를 부여할지를 정하는 균형 파라미터이다.
- λ는 정규화 정도를 제어한다.
- 이 목적함수는 관찰된 항목에 대해서만 계산되며 지정되지 않은 항목은 프로베니우스 노름의 계산에서 무시된다.
- SR과 ST에서의 관측된 항목 관점에서 목적함수를 다시 쓸 수 있다.
- 경사하강 접근법은 계수 행렬 U, V 및 Z를 결정하는 데 쓰인다.
- 경사하강 단계는 두 행렬에서 관찰된 값과 예측 값 사이의 오류의 행렬에 따라 달라진다.
- 평점에 대한 오류 행렬은 관찰되지 않은 항목은 0으로 설정한다.
- 경사하강 단계는 다음과 같이 행렬 업데이트 형태로 작성할 수 있다.
- 단일 항목에 걸쳐 오차가 무작위로 근사회되는 확률적 경사하강법도 가능하다.
- 이 항목은 임의의 순서로 선택되며 평점 행렬 또는 신뢰 행렬에 속할 수 있다.
- 확률적 경사하강 접근 방법은 먼저 관찰된 각 항목 (i , j)을 통해 임의의 순서로 평점 행렬에서 SR을 거치고 다음과 같은 업데이트를 수행한다.
- α > 0은 스텝 크기를 나타낸다.
- 확률적 경사 하강 방법론은 신뢰 행렬에서 각 관찰된 항목에 대해 임의 순서로 반복되게 되고, 다음 업데이트 단계를 수행한다.
- 수렴에 도달할 때까지 이 업데이트 방식으로 평점 행렬과 신뢰 행렬의 관찰된 항목을 번갈아 순환한다.
로지스틱 함수의 개선
- 행렬 인수분해 방법론은 R의 아이템 평점 값이나 T의 신뢰 값에 벗어난 값을 예측하는 단점이 있다.
- 범위가 지정된 평점을 생성하기 위해 분해를 강제하는 한 가지 방법은 분해 과정 내에 로지스틱 함수를 쓰는 것이다.
- 로지스틱 함수는 언제나 (0 , 1)의 범위 안에 있기 때문에,
일반화률 유지하면서 R의 평점과 T의 신뢰 값은 (0 , 1) 안에서 가정할 수 있다.
- 목적함수는 다음과 같이 바뀔 수 있다.
- 이에 상응하는 경사하강 방법론은 목적함수의 미분을 곱해 통합한다.
📖 소셜 추천 시스템의 장점
- 소셜 추천 시스템은 추천 프로세스에 추가 신뢰 정보를 통합하기 때문에 여러 가지 장점이 있다.
- 이 기능은 항목의 추천 품질을 개선하고 콜드 스타트 문제를 해결하며 공격에 강한 접근을 원할 때 특히 유용하다.
1. 논란의 여지가 있는 사용자와 아이템에 대한 추천
- 신뢰를 통합하는 가장 큰 장점은 논란의 여지가 있는 사용자와 아이템에 대한 추천 품질 개선에 있다.
- 논란의 여지가 있는 사용자는 특정 아이템의 평점이 다른 사용자와 같지 않는 사용자이다.
- 논란의 여지가 있는 아이템은 다양하거나 바이어스된 리뷰를 받는 아이템이다.
- 이러한 경우 신뢰 메트릭을 사용한다면 일반적으로 사용자별 또는 아이템별 정확도를 크게 향상시킨다.
2. 콜드 스타트의 유용성
- 소셜 링크는 신규 사용자의 콜드 스타트 문제를 처리하는 데 특히 유용하다.
- 주요 가정은 사용자의 소셜 링크는 사용자가 시스템을 사용하기도 전에 사용할 수 있다는 것이다.
- 암시적으로 유추된 신뢰 네트워크의 경우 특히 그러하다.
- 어떤 경우에서든지 소셜 링크는 더 많은 데이터를 추가한다.
- 이는 추천에서 발생하는 희소성 문제를 완화하는데 도움이 된다.
3. 공격 저항
- 신뢰 기반 추천 시스템은 공격에 강한 것이 알고리듬은 사용자의 신뢰할 수 있는 피어를 사용해 평점을 예측하기 때문이다.
- 사용자는 가짜 프로필과 신뢰 관계를 형성할 리가 거의 없기 때문에 이러한 접근법은 예측 과정에서 가짜 프로필에서 게시된 평점을 사용할 가능성이 낮아진다.
📌 소셜 추천 모델의 사용자 상호작용
- 웹 2.0이라고도 하는 차세대 웹은 사용자가 적극적으로 참여하고 피드백을 남길 수 있는 여러 개방형 시스템의 개발을 지원해왔다.
- 특히 소셜 태그 지정 시스템의 개발을 통해 사용자는 미디어 개체에 대한 메타 데이터를 만들고 공유할 수 있다.
- 이러한 메타 데이터를 태그라고도 한다.
- 태그는 다른 관련 리소스에 대한 책갈피 또는 색인 역할을 한다.
- 이 프로세스는 콘텐츠의 구성과 포크소노미라 부르는 지식 자원의 생성을 만들어낸다.
- 포그코노미는 민족과 분류에서 파생된 용어이며, 직관적으로 비전문가적이며, 자발적이고, 월드 와이드 웹 참여자가 만든 웹 객체의 분류를 의미한다.
- 태그는 객체의 주제에 대한 이해를 제공하며 다른 참가자가 일반적으로 사용하고 이해하는 어휘를 자주 사용하기 때문에 참가자의 비전문적 특성이며 이는 실제로 자산이며, 시스템의 협업력에 기여한다.
- 추천 시스템의 특정 맥락에서 포크소노미는 객체에 대한 사용 가능한 지식을 바로 기여하기 때문에 가치가 있다.
- 최소한 각 태그는 객체를 설명하는 특성으로 간주될 수 있다.
- 잡음이 많이 섞인 본성을 가졌음에도 이러한 소셜 태깅 방법론은 평점과다른 원천들을 활용해 쓸 수 있는 지식을 채워준다는 점에서 추천 시스템의 효과를 개선시키기 위해 쓰인다.
📖 포크소노미 표현하기
- 태깅 시스템에서 사용자는 태그로 상품에 주석을 추가한다.
- 따라서 사용자, 상품, 태그 간의 3방향 관계가 존재한다.
1. 이에 따라 각 하이퍼에지가 세 개체를 연결하는 하이퍼 그래프로 나타낼 수 있다.
2. 사용자가 특정 태그를 가진 특정 리소스에 태그를 지정했는지 여부에 대한 정보가 포함된 단일 비트를 포함하는 3차원 큐브로 나타낼 수도 있다.
- 그림 11.6(a)은 하이퍼 그래프를 묘사하고, 그림 11.6(b)은 다차원 큐브를 묘사한다.
- 포크소노미는 m 사용자, n 상품 및 p 태그를 3차원 배열을 크기 m x n x p의 행렬로 정의한다.
- 요소 fijk는 사용자가 상품 j에 k번째 태그를 지정했는지 여부를 나타내는 단일 값이다.
- 실제 컨텍스트에서는 지정되지 않은 값은 기본적으로 0으로 설정되며 이는 매우 희소한 암시적-피드백 설정에서 흔히 볼 수 있다.
📖 소셜 태깅 시스템의 협업 필터링
- 협업 필터링 시스템은 평점 행렬이 기본 데이터인 태그 인식 추천 시스템으로,
태깅 정보는 평점 예측의 정확도를 향상시키기 위해 추가 정보로 제공된다.
- 태깅 정보만 사용할 수 있는 경우보다 평점 행렬을 사용할 수 있는 경우에는 다양한 종류의 협업 필터링 쿼리를 공식화 할 수 있다.
- 이러한 경우 태그 큐브 및 평점 행렬은 사용자와 상품의 차원을 공통으로 공유하지만 평점 행렬에는 태그 차원이 포함되지 않는다.
- 그런 다음 이 두 소스의 정보를 통합해 추천 내용을 제공할 수 있다.
- 콘텐츠 기반 협업 필터링에서 키워드는 상품이랑만 연결되지만,
태그-큐브 키워드는 사용자-상품 조합과 연결된다.
📖 의미 있는 태그 선택
- 태그는 오픈해 기여하고 사용되기 때문에 일반적으로 노이즈가 많다.
- 관련 없는 태그가 사용되면 많은 추천 결과에 좋지 않은 영향을 줄 수 있기 때문에 적은 수의 태그를 미리 선택하는 것이 좋다.
- 태그 선택 알고리듬은 일반적으로 간단한 기준에 따라 태그를 정렬한 다음 이러한 기준에 따라 최상위 태그를 미리 선택한다.
- 표 11.1에 태그의 품질을 평가하기 위한 여러 방법이 제안된 것을 보여준다.
- 상품-앱 수, 공유된 태그, 개트된 상품 평균 비중은 좋은 성능을 나타내는 것으로 나타난다.
- 앱 수, 사용자 수, 태그 길이와 같은 방법은 최상의 퍼포먼슬르 내지 않는다.
- 5가지 최상의 방법을 하나로 조합한 'all-implicit'라고 부르는 방법은 개별 방법보다 더 나은 성능을 제공한다.
📖 평점 행렬이 없는 소셜 태깅 추천 모델
- 태그 큐브는 태그가 컨텍스트를 나타내는 관점에서 다차원 큐브라 볼 수 있다.
- 소셜 태깅 추천 모델의 쿼리는 항목, 태그 또는 사용자를 추천할 수 있는 다양한 방법으로 공식화할 수 있다.
- 태깅 큐브는 3차원이며 차원에 따라 추천할 수 있다.
- 태그의 추천은 사용자와 태그 시스템을 제공하는 플랫폼 모두에게 이점이 있기 때문에 가장 일반적이다.
- 호스팅 플랫폼에 대한 유용성 : 태그가 비표준화돼 있기 때문에 다른 사용자가 동일한 리소스에 대해 다른 키워드를 사용해 설명할 수 있다.
- 특정 상품에 대해 태그를 추천하면 설명을 정리하는데 도움이 된다.
- 사용자에게 제공되는 유용성 : 사용자는 아이템에 특정한 태그를 추천하거나 자신의 관심사에 맞는 태그를 추천할 수 있다.
- 태그는 다양한 사용자에게 개인화된 방식으로 아이템을 구성할 수 있도록 하기 때문에 사용자에 특화된 태그 추천이 용이하다.
1. 컨텍스트 민감 시스템을 위한 다차원 방법론
- 다차원 방법론을 사용해 소셜 태깅 추천 모델을 만들 수 있다.
- 기본 아이디어는 두 차원에서의 쿼리에 대한 특정 차원 쌍을 따라 데이터를 계획하고 세 차원을 따라 컨텍스트 쿼리에 대한 사전 필터링 방법론을 사용하는 것이다.
- 태그는 리소스와 색인 이중 기능을 제공하므로,
태그는 사용자가 관심 있을 법한 리소스를 찾는데 쓰인다.
- 태그 차원을 따라 빈도를 집계하는 일은 사용자-아이템 행렬로 이어지며,
이 행렬은 사용자에게 아이템을 추천하는 데 사용할 수 있다.
- 이러한 집계 방법론의 한 가지 단점은 한 가지 차원에 대한 정보는 무시된다는 것이다.
- 추천 과정 중 모든 차원의 정보를 조합하는 것도 가능하다.
- 타깃 사용자에게 가장 잘 맞는 태그나 상품을 추천한다고 가정 할 때,
이 문제를 해결하기 위한 하나의 방법은 집계된 사용자-태그 행렬을 기반으로 타깃 사용자와의 유사도를 계산하는 것이다.
- 그런 다음 사용자 기반 예측에 대한 표준 예측 방법론을 활용해 대상에 가장 근접한 상품 또는 태그를 추천할 수 있다.
- 유사한 방법론은 아이템 기반 협업 필터링 방법론에서 사용될 수 있다.
- 이는 타깃 상품에서부터 시작되고 집계된 사용자-아이템 행렬 또는 태그-아이템 행렬을 기반으로 가장 유사한 아이템을 찾는다.
- 또 다른 유용한 쿼리는 사용자에게 특정 태그 컨텍스트를 위한 상품을 추천하는 것이다.
- 컨텍스트에 맞는 시스템에 대한 사전 필터링과 사후 필터링 방법론은 이 목적을 위해 쓰인다.
- 도전 과제는 추출된 사용자-아이템 조각이 너무 희소할 수 있다는 것이다.
- 희소성 문제를 해결하기 위해 태그 클러스터링을 사용해 관련 태그를 그룹화 할 수 있다.
- 텐서 분해 방법론은 소셜 태깅에 있어 그 인기가 증가하고 있는 추세이다.
2. 순위 기반 방법론
- 순위 기반 방법론은 PageRank 방법론을 사용해 태그가 있는 경우의 추천을 제공한다.
- SocialRank와 FolkRank가 사용되는데 주요 차이점은 SocialRank는 순위를 결정하는 단계에서 객체 간의 콘텐츠 중심 유사도를 사용한다는 것이다.
또한 SocialRank는 태깅 하이퍼그래프가 아닌 임의의 소셜 미디어 네트워크에 적용할 수 있다.
- 따라서 SocialRank는 다른 양상의 효과의 균형을 맞추기 위해 PageRank 알고리듬에 중요한 변경을 하며, 이 방법은 포크소노미에도 적용할 수 있다.
- FolkRank는 특히 포크소노미에서 만든 태깅 하이퍼그래프와 함께 작동하도록 설계돼 있다.
- FolkRank는 개인화된 PageRank의 간단한 적용이다.
- FolkRank를 적용하는 첫 번째 단게는 태그 하이퍼그래프에서 삼분 그래프를 추출하는 것이다.
- 삼분 그래프는 하이퍼 그래프에서 추출된다.
- 그런 다음 개인화된 PageRank 방법론이 이 네트워크에 직접 적용된다.
- 프로세스 결과 순위가 높은 태그, 사용자, 아이템은 네트워크 내 관련 노드에 대한 다양한 관점을 보여준다.
- FolkRank의 중요한 점은 사용자별 관련성 외에도 글로벌 인기를 고려한다는 것이다.
- 이는 모든 순위 메커니즘이 고도로 연결된 노드를 선호하는 경향이 있기 때문이다.
3. 콘텐츠 기반 방법론
- 사용자에게 아이템과 태그를 모두 추천하기 위해서 콘텐츠 기반 방법론을 사용할 수도 있다.
- 사용자에게 아이템을 추천하기 위해 m 사용자의 각 아이템에 대한 태그 빈도를 이용해 사용자 특화 학습 데이터 세트를 만들 수 있다.
- 이 때의 빈도는 tf-idf 형식으로 나타낼 수 있다.
- 지정된 사용자의 경우, 학습 데이터에는 사용자가 태그한 아이템과 태그 하지 않은 아이템의 음수 샘플이 포함된다.
- 태깅 빈도는 학습해야 하는 개체다.
- 기능 변수와 종속 변수는 각 아이템의 tf-idf의 표현과 사용자가 각 아이템에 배치한 태그 수에 해당한다.
- 종속 변수는 음수 샘플의 경우 0이다.
- 회귀 기반 모델은 예측을 하기 위해 이 학습 데이터에 적용된다.
- 유사한 접근 방식을 사용해 사용자에게 아이템을 추천하는 대신 사용자에게 태그를 추천할 수 있다.
- 주요 차이점은 태그가 다른 방법이 아닌 항목의 tf-idf 벡터로 표현된다는 것이다.
- 학습 데이터는 분류해야 하는 객체로 태그를 사용해 생성된다.
- 따라서 태그에는 사용자가 다른 아이템에 해당 태그를 붙은 횟수를 기반으로 레이블이 붙어 있다.
- 이 학습 모델은 사용자의 관심사를 알 수 없는 태그에서 사용자의 관심을 예측하는 데 사용된다.
- 태그 클러스터링을 기반으로 하는 아이템 추천 알고리듬도 있다.
- 클러스터는 아이템 측면에서 태그의 tf-idf 표현을 사용해 만들어진다.
- 각 태그는 아이템 빈도의 벡터로 처리된다.
- 이 벡터는 m개의 클러스터를 만드는데 사용된다.
- 클러스터링 과정은 사용자 관심사와 항목 관련성을 측정하고 통합하는 중간 지점의 표현을 제공한다.
- s번째 클러스터에서 i번째 사용자의 관심사를 ucW(i , s)로 표시하고,
s번째 클러스터에 대한 j번째 아이템의 관련성을 rcW(j , s)로 표시할 때,
아이템 j에서의 사욪아 i의 관심사 I(i , j)는 다음과 같이 계산된다.
- 그림 11.7은 중간 단계로써 클러스터를 이용한 관심사 계산이 나와있다.
- 이 관심사는 사용자의 아이템에 순위를 매기는 데 사용할 수 있다.
- 기본 개념은 클러스터가 품질 좋은 관심사 계산을 수행하기 위해 활용되면서, 희소한 사용자-아이템 태깅 행동에 경고함을 제공한다는 것이다.
- 잠재 디리클레 할당을 사용해 각 아이템을 태그의 빈도를 포함하는 문서로 처리해 콘텐츠 중심 토픽 모델링을 기반으로 추천을 만들 수 있다.
- 전통적인 문서의 토픽 모델링과 마찬가지로 이 방법은 q번째 태그가 다음 관계로 인해 아이템 j와 관련이 있음을 보여준다.
- K는 사용자 정의 매개변수인 총 토픽 수를 나타낸다.
- 좌변은 순위를 매기기 위한 목적으로 추천 확률을 제공하고,
우변에 있는 수량은 LDA를 사용해 매개변수를 학습하는 과정 중에 추정된다.
- 좀 더 간단한 확률적 잠복 시멘트 분석 모델은 LDA 대신에 사용될 수 있다.
- 사용자의 태그 집합을 문서로 처리하고 토픽 모델링을 사용해 이러한 사용자를 토픽으로 클러스터링해 추천을 개인화할 수 있다.
- 이렇게 토픽이 결정된 후 다음과 같이 각 사용자에 대한 다양한 태그의 관련성을 계산할 수 있다.
- 식 11.17은 아이템을 클러스터하는 반면,
식 11.18은 사용자를 클러스터한다.
- 식 11.17과 11.18의 선형 조합은 사용자 i의 개인화된 컨텍스트를 고려해 태그 q와 아이템 j의 관련성을 결정하는 데 사용할 수 있다.
- 토픽 모델링에서 베이지안 아이디어 중 일부를 직접 적용해 사용자 특이성과 항목 특이성을 결합하는 다른 방법이 있다.
- 특정 확률은 다음고 같이 나이브 베이즈 룰을 사용해 단순화 할 수 있다.
- 앞서 언급한 방정식의 우변에 있는 각 확률들에 베이즈 룰을 사용해 사용자 추천과 아이템 추천 확률로 표현할 수 있다.
- 식 11.21에서 이러한 용어를 대체할 때 다음을 얻게 된다.
- 우변의 항은 모든 베이즈 분류 모델과 마찬가지로 데이터 기반 형식으로 쉽게 추정할 수 있다.
- 다음의 확률은 특정 사용자-아이템 조합에 대한 태그의 순위를 매기는 데 사용한다.
📖 평점 행렬을 사용한 소셜 태깅 추천 모델
- 태그는 아이템 평점과 더불어 추천의 품질을 향상시킬 수 있다.
- 평점 행렬도 예측을 제공할 수 있지만태그 정보 그 자체가 단독 정보이기 때문에 통합될 때 예측 오류의 가능성은 줄어들게 된다.
- 평점과 태그는 서로 보완해 더욱 견고한 결정을 내릴 수 있다.
- 대부분의 경우 태깅 시스템에는 평점 행렬에 암시적 평점이 포함된다.
- 가장 간단한 방법은 하이브리드 추천 시스템을 사용해 태그와 평점에 따라 예측을 결합하는 것이다.
- 그러나 이러한 접근법은 예측의 두 소스를 아주 긴밀하게 통합하지 않는다.
- 추천 프로세스의 다양한 데이터 소스를 긴밀하게 통합하는 알고리듬으로 더 나은 결과를 얻을 수 있다.
1. 이웃 기반 접근법
- 사용자 기반 접근법
- 아이템의 차원이 확장된 평점 행렬을 만들기 위해 태그는 가짜 아이템으로 취급된다.
- 사용자-태그 활동 정보를 가진 추가 열로 인해 유사도 계산이 강화된다.
- 사용자 i의 아이템 평점은 i의 피어 그룹에서 1이라는 값을 사용해 계산된다.
- 이렇게 예측된 평점은 아이템 인덱스 j의 다른 값에 대해 1로 합산하도록 정규화된다.
- 아이템 기반 접근법
- 태그는 가짜 사용자로 처리되고 원래 평점 행렬에 행으로 추가된다.
- 이로 인해 사이즈 (m + p) x n를 가진 확장된 행령리 생성된다.
- 이 확장 행렬은 아이템 기반 협업 필터링에서 1로 합산되도록 정규화된다.
- 따라서 이 경우에서도 예측 평점은 아이템에 접근하거나 구매할 확률을 나타낸다.
사용자 기반과 아이템 기반 협업 필터링을 수행한 후 두 사례의 평점 예측은 매개변수 λ을 사용해 융합된다.
2. 선형 회귀
- 선형 회귀를 사용해 태그를 추천 프로세스에 통합한다.
- 태그는 사용자 선호를 식별하는 데 있어 일반적으로 평점보다 통계적으로 덜 정확하므로 추천 프로세스에 적합한 태그만 선택하는 것이 중요하다.
- 기본 접근 방식은 다양한 항목에 대한 태그 선호에 대한 정보를 보강하기 위해 사용자 평점 정보를 융합한다.
- 첫 번째 단계는 항목과 태그 간의 관련성 가중치를 결정하는 것이다.
- 그런 다음 qjk가 아이템 j오 ㅏ태그 k의 관련성이라 하면, 항목 선호 값은 시그모이드 함수로 더 변환된다.
- 태그 k에 대한 사용자 i의 사용자 선호 ujk는 태그-항목 관련성과 항목에 대한 사용자 관심의 결합을 결합해 계산된다.
- 항목에 대한 사용자 관심은 평점 행렬을 사용해 추론될 수 있으며 태그 k에 대한 사용자 i의 선호도는 다음과 같이 유추될 수 있다.
- 사용자 i에 의해 평가되지 않은 아이템은 분자와 분모에서 무시된다.
- 사용자 i에 대한 아이템 j의 선호 점수를 예측하는 간단한 방법은 해당 아이템의 모든 태그를 결정하고 모든 태그의 값을 평균화하는 것이다.
- pij가 평점 범위에 속하지 않을 수 있지만, 그럼에도 여전히 사용자를 위한 아이템 순위 매기는 용으로 사용할 수 있다.
- 평점을 예측하기 위한 더욱 효과적인 방법은 선형 회귀를 사용하는 것이다.
- 선형 회귀의 기본 개념은 아이템 j에 대한 사용자 i의 평점이 고정된 j와 변동되는 i의 값에 대해 사실인 선형 관계를 기반으로 한다고 가정하는 것이다.
- 계수 wjr는 아이템 j에 대한 태그 r의 중요도를 나타내며,
아이템 j에 대해 관찰되는 모든 평점에 대한 회귀를 사용해 학습할 수 있다.
- 식 11.27과의 주요 차이점은 태그의 가중치로 vjr의 추론 값을 사용하는 대신 평점 행렬에서 선형 회귀를 사용해 wjr을 학습한다는 것이다.
- 결과에 있어서는 더 높은 수준의 감독으로 인해 일반적으로 더 우수하다.
- 또한 이 방법은 태그로부터 알 수 있는 부가 정보를 사용하기 때문에 기존의 협업 알고리듬에 비해 우수한 결과를 제공한다.
- 이 방법론은 간단한 행렬 인수분해 방법과 하이브리드 시스템에 결합하면 더 나은 결과를 제공할 수 있다.
- 서포트 벡터 머신이 학습 프로세스에서 가장 적합한 결과를 제공하는 것으로 나타났지만 최소 제곱 회귀는 더 간단한 대안을 제공한다.
3. 행렬 인수분해
- 행렬 R을 두 개의 행렬 U와 V로 나눈다.
- 그런 다음 유사한 태깅 습성을 가진 사용자가 유사한 요소를 갖도록 하기 위해 다음과 같은 요소 유사도 먹적 f(U)를 최소화한다.
- 유사한 태깅 습성을 가진 사용자는 유사한 요소를 갖기 위해 유사도 제한은 요소 행렬 U에 대해 부과된다.
- 다음의 두 용어를 요약해 목적 함수가 파생된다.
- 목적함수와 f(U)에 의해 정의된 두 개의 다른 기준을 가지고 있기 때문에 균형 매개 변수 β는 이 둘의 합을 최소화하기 위해 도입된다.
- 표준 정규화된 항은 요인 행렬의 프로베니우스 노름의 합계에 의해 부여된다.
- 경사 하강 방법론은 계수 행렬 U와 V를 결정한다.
- β와 λ는 교차 검증 방법론을 사용해 계산할 수 있다.
4. 유사독 계산하기
- 전술한 접근법은 사용자 i와 j간의 태깅 유사도의 계산을 필요로 한다.
- 먼저 tf-idf 행렬은 사용자가 특정 태그를 사용한 횟수가 태그 큐브 F에서 생성된다.
- 즉, 모든 아이템에 대한 특정 사용자-태그 조합은 1의 개수로 합계된다.
- 따라서 m명의 사용자 각각에 대해 빈도 벡터가 생성된다.
- 피어슨 유사도 : 피어슨 상관계수는 사용자 i및 사용자 j의 모든 태그에 대해 게산된다.
- 코사인 유사도 : 빈도 벡터들 사이의 표준 코사인 유사도는 유사도 값으로 사용된다.
- 유클리드 유사도 : 유클리드 거리 dij는 유사도 벡터 사이에 계산된 다음 가우시안 커널이 거리에 적용돼 (0 , 1) 사이의 유사도 값으로 변환된다.
- 여기서 σ는 교차 검즈을 사용해 선택된 사용자 제어 매개변수다.
- 피어슨유사도는 최상의 성능을 제공한 반면, 유클리드 유사도는 최악의 결과를 낳았다.
4. 콘텐츠 기반 방법
- 소셜 태깅 방법론은 콘텐츠 기반 방법론을 간단하게 사용하는 방법을 알려준다.
- 영화에 붙은 태그의 빈도 벡터는 설명으로 볼 수 있다.
- 사용자가 평가한 영화는 태그에 의해 정의된 기능 공간에 대한 학습 데이터로 처리된다.
- 평점은 클래스이 레이블로 처리된다.
- 모델은 다른 영화의 평점을 예측하는 데 사용된다.
- 이러한 콘텐츠 기반 모델은 모든 협업 시스템과도 결합할 수 있다.
이렇게 유용한 정보를 공유해주셔서 감사합니다.