정의: 사용자가 이전에 구매한 상품 중 좋아하는 상품들과 유사한 상품들을 추천하는 방법
items을 벡터 행태로 표현, 벡터들간의 유사도를 계산하여 자신과 유사한 벡터를 추출
-유클리디안 유사도
장점: 계산이 쉬움
단점: p와 q의 분포가 다르거나 범위가 다른 경우에 상관성을 놓침
-코사인 유사도
장점: 벡터의 크기가 중요하지 않은 경우에 거리를 축정하기 위한 메트릭으로 사용. (ex. 문서 내에서 단어의 빈도수 - 문서들 길이가 고르지 않더라도 문서 내에서 얼마나 나왔는지의 비율을 확인하기 때문에 상관 없음)
단점: 벡터의 크기가 중요한 경우에 대해 잘 작동하지 않음
-피어슨 유사도
상관관계를 파악하고자 할 때 사용
-자카드 유사도
집합에서 얼마만큼의 결합된 부분이 있는지로 계산
TF-IDF
정의: 특정 문서 내에 특정 단어가 얼마나 자주 등장하는 지를 의미하는 단어 빈도(TF)와 전체 문서에서 특정 단어가 얼마나 자주 등장하는지를 의미하는 역문서 빈도(DF)를 통해 “다른 문서에서는 등장하지 않지만 특정 문서에서만 자주 등장하는 단어"를 찾아서 문서 내 단어의 가중치를 계산하는 방법
장점
-직관적인 해석이 가능함
단점
-대규모 말뭉치를 다룰 때 메모리 상 문제 발생
-높은 차원
-매우 sparse한 형태의 데이터
cf. 코드 출력 시 유의 점
소프트웨어 별 적용하는 방식이 달라 값 차이가 있을 수 있음