여러 유사도 계산 기법을 text similarity에 도입한 결과 refers

jj·2021년 2월 26일
0

Text Similarities : Estimate the degree of similarity between two texts

medium 출처: https://medium.com/@adriensieg/text-similarities-da019229c894

  • 여기서 말하는 different embedding 이란?
    • BoW, TF-IDF, w2v/glove/fasttext embedding, poincarre embedidng, node2vec

  • Jaccard Similarity ☹☹☹

  • Different embeddings+ K-means ☹☹

  • Different embeddings+ Cosine Similarity ☹

  • Different embeddings+LSI + Cosine Similarity ☹

  • Word2Vec + Smooth Inverse Frequency + Cosine Similarity 😊 ← 이번에 시도한 방식!

  • Different embeddings+ LDA + Jensen-Shannon distance 😊

  • Different embeddings+ Word Mover Distance 😊😊

  • Different embeddings+ Variational Auto Encoder (VAE) 😊 😊

  • Different embeddings+ Universal sentence encoder 😊😊

  • Different embeddings+ Siamese Manhattan LSTM 😊😊😊

  • BERT embeddings + Cosine Similarity ❤

  • Knowledge-based Measures(WordNet) ❤

    • text 데이터를 처리할 때, 보통은 text unit을 벡터로 변환하는 과정을 거치는데, 사실 이는 100% 정답은 아니다. 오히려 벡터를 아예 사용하지 않고도 높은 성능을 보일 수 있다.
    • 그러나 ML/DL 알고리즘에서는 벡터로 변환하는 것이 더 효율적임
profile
재밌는게 재밌는거다

0개의 댓글