Jaccard Similarity 코드

syEON·2023년 10월 12일
0

자카드 유사도

  • 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도 측정
  • 유사도 측정 방법 (A/B)
    A : 두 집합의 교집합인 공통된 단어의 개수
    B : 집합이 가지는 단어의 개수
  • 0~1 사이의 값을 가진다.

코드

import numpy as np
from sklearn.metrics import accuracy_score

#중첩된 것에 대한 확률
print(accuracy_score(np.array([1,3,2]), np.array([1,4,5])))
print(accuracy_score(np.array([1,3,2]), np.array([4,1,5])))
print(accuracy_score(np.array([1,1,0,0]), np.array([1,1,0,2])))
print(accuracy_score(np.array([1,0,1,0]), np.array([1,1,0,2])))   #1과1비교, 0과1비교 1과0비교 0과2비교 해서 4개중에 한개가 맞아서 25%

0.3333333333333333
0.0
0.75
0.25

0개의 댓글