# similarity

9개의 포스트
post-thumbnail

Elasticsearch 유사도 알고리즘 (TF/IDF, BM25 비교)

Elasticsearch는 5.0버전 이후부터 _score 계산하는 기본 유사도 알고리즘이 TF/IDF에서 BM25로 바뀌었습니다. BM25가 검색의 정확도가 더 정교하다지만 각자 서비스하는 시스템에 따라 두 알고리즘의 차이점을 알고 적합한 알고리즘을 선택 TF/

2022년 3월 15일
·
2개의 댓글
·
post-thumbnail

Faiss 시작하기

최근에 DPR, RAG, RETRO, FiD 등을 보면서 Retrieval에 대한 내용들이 많이 나온다. faiss에 대해 살펴보고자 한다.faiss getting started 참고faiss는 facebook research에서 개발한, dense vector들의 클

2022년 2월 5일
·
0개의 댓글
·
post-thumbnail

거리 기반 유사도(유클리디안 거리) vs 각도 기반 유사도(코사인 유사도)

벡터화한 A, B의 유사도를 구하는 방법에는 유클리디안 유사도로 대표되는 거리 기반 유사도와코사인 유사도로 대표되는 각도 기반 유사도가 있다.각도 기반 유사도와 거리 기반 유사도는 언제 사용해야 좋은지 알아보자.유사도 측정 방식 위 그림 중 좌측 그림을 보면 거리 기반

2021년 7월 14일
·
0개의 댓글
·
post-thumbnail

Approximate nearest neighbor methods and vector models

https://www.slideshare.net/erikbern/approximate-nearest-neighbor-methods-and-vector-models-nyc-ml-meetup출처: spotify engineering lead slideshare S

2021년 2월 26일
·
0개의 댓글
·

ANNS(Approximated nearest neighbor search)

https://yamalab.tistory.com/132?category=747907벡터간의 유사도 계산은 엄청난게 오래걸리고, 이를 실시간으로 처리하기에는 너무 오래걸린다벡터를 색인한다는 것은 유사 벡터를 빠르게 찾을 수 있는 데이터 구조를 구축하는 것을 의

2021년 2월 26일
·
0개의 댓글
·

여러 유사도 계산 기법을 text similarity에 도입한 결과 refers

Text Similarities : Estimate the degree of similarity between two texts

2021년 2월 26일
·
0개의 댓글
·

Different embeddings+ LDA + Jensen-Shannon distance 😊

LDA has many uses:Understanding the different varieties topics in a corpus (obviously),Getting a better insight into the type of documents in a corpus

2021년 2월 26일
·
0개의 댓글
·
post-thumbnail

Different embeddings+ Word Mover Distance 😊😊

Obama speaks to the media in IllinoisThe president greets the press in ChicagoObama speaks media Illinoispresident greets press Chicago위의 두 문장의 경우, 공통

2021년 2월 26일
·
0개의 댓글
·
post-thumbnail

Cosine 유사도의 특징 및 장단점

개요 image 코사인 유사도는 특히 결과값이 0,1]의 범위로 떨어지는 양수 공간에서 사용된다.(from 위키피디아) 특징 계산된 유사도는 −1 ~ 1 사이의 값을 가진다. - −1은 서로 완전히 반대되는 경우 - 0은 서로 독립적인 경우 - 1은 서로 완전히

2019년 2월 7일
·
0개의 댓글
·