추천시스템 분석 입문하기 _ 컨텐츠 기반 모델

안태림·2022년 11월 16일

컨텐츠 기반 모델

정의: 사용자가 이전에 구매한 상품 중 좋아하는 상품들과 유사한 상품들을 추천하는 방법

items을 벡터 행태로 표현, 벡터들간의 유사도를 계산하여 자신과 유사한 벡터를 추출

유사도 함수

-유클리디안 유사도
장점: 계산이 쉬움
단점: p와 q의 분포가 다르거나 범위가 다른 경우에 상관성을 놓침

-코사인 유사도
장점: 벡터의 크기가 중요하지 않은 경우에 거리를 축정하기 위한 메트릭으로 사용. (ex. 문서 내에서 단어의 빈도수 - 문서들 길이가 고르지 않더라도 문서 내에서 얼마나 나왔는지의 비율을 확인하기 때문에 상관 없음)
단점: 벡터의 크기가 중요한 경우에 대해 잘 작동하지 않음

-피어슨 유사도
상관관계를 파악하고자 할 때 사용

-자카드 유사도
집합에서 얼마만큼의 결합된 부분이 있는지로 계산

TF-IDF
정의: 특정 문서 내에 특정 단어가 얼마나 자주 등장하는 지를 의미하는 단어 빈도(TF)와 전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)를 통해 “다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어＂를 찾아서 문서 내 단어의 가중치를 계산하는 방법

장점
-직관적인 해석이 가능함

단점
-대규모 말뭉치를 다룰 때 메모리 상 문제 발생
-높은 차원
-매우 sparse한 형태의 데이터

cf. 코드 출력 시 유의 점
소프트웨어 별 적용하는 방식이 달라 값 차이가 있을 수 있음

안태림

데린이

이전 포스트

추천시스템 분석 입문하기 _ 컨텐츠 기반 모델

컨텐츠 기반 모델

유사도 함수

추천시스템 분석 입문하기 _ 추천시스템의 이해

추천시스템 분석 입문하기 3강 - 컨텐츠 기반 모델 - Word2Vec(CBOW, Skip-gram)

0개의 댓글