Jaccard Distance

Heejin·2023년 5월 30일
0

Bigdata Analytics Glossary

목록 보기
11/22

Jaccard distance는 두 집합 간의 유사도를 측정하는 방법 중 하나이다. Jaccard distance는 두 집합 사이의 차이를 측정하는 값으로, 두 집합의 교집합 크기를 합집합 크기로 나눈 것의 보수값으로 정의된다.

만약 A와 B라는 두 개의 집합이 있다고 가정하겠다. 이 때 A와 B의 교집합을 A ∩ B로 표기하고, 합집합을 A ∪ B로 표기한다. Jaccard distance(JD)는 다음과 같이 정의된다:

JD(A, B) = 1 - (|A ∩ B| / |A ∪ B|)

즉, 두 집합의 교집합 크기를 합집합 크기로 나눈 값의 보수(1에서 빼준 값)이다. Jaccard distance의 값은 0과 1 사이에 있으며, 0에 가까울수록 두 집합은 유사하고, 1에 가까울수록 두 집합은 상이함을 나타낸다.

Jaccard distance는 데이터 분석, 텍스트 마이닝, 이미지 처리 등 다양한 분야에서 사용된다. 주로 두 개체나 집합 간의 유사성을 비교하고자 할 때 측정 지표로 활용된다.

0개의 댓글