쟈카드 거리, 공분산을 알아보자

2400·2022년 10월 22일
0

쟈카드 유사도 출처 : https://rfriend.tistory.com/318
[R, Python 분석과 프로그래밍의 친구 (by R Friend):티스토리]

쟈카드 공분산 출처 : https://rfriend.tistory.com/583?category=706119

쟈카드 유사도

  • 이름은 무시무시하지만 생각보다 간단한 방식의 거리 개념이다.
  • 교집합의 개수 / 합집합의 개수
  • 이게 끝이다.

어떨떄 쓰는가?

  • 두 집합에 공통으로 공유되는 항목은 중요한 반면에, 두 집합에서 모두 존재하지 않는 항목에 대해서는 무시해도 되는 상황, 문제
  • 범주형 데이터 (집합으로 표현)

쟈카드 공분산 ( Jaccard co-efficient ) <- 집합 말고도 교차행렬로 표현됐을떄도 마찬가지로 거리를 계산할 수 있다는 뜻인듯.

X 변수, Y변수의 등장 빈도를 교차행렬로 표현해보자. ( confusion matrix 랑 비슷하다. )
출처 : https://rfriend.tistory.com/583?category=706119

a,b,c,d 는 숫자다.

  • 쟈카드 공분산 수식 : a / a+b+c

참고로 Hamming Distance는 더 무식하게(?) 집계한다.

  • 같은 값이 나온 개수 : a+d ( 둘 다 1 또는 둘 다 0 )
  • 수식 : a+d / a+b+c+d
profile
공부용 혹은 정리용 혹은 개인저장용

0개의 댓글