[TIL] 20210302_유사도 측정/단어임베딩

이석영·2021년 3월 2일

배운점

유사도 측정 알고리즘

벡터들간의 유사도를 판단하는 방법

코사인(cosine) 유사도

N차원 공간에 있는 두 개의 벡터간의 각도(원점에서)를 보고 유사도를 판단하는 기준
코사인 유사도 계산식

피어슨 상관계수(pearson correlation)

평점처럼 방향뿐만 아니라 벡터 크기의 정규화가 중요하면 피어슨 유사도를 사용
코사인 유사도의 개선버전
- A와 B의 값들을 보정(벡터내 셀의 평균값을 후 각 셀에서 빼줌)
- 그 후 계산은 코사인 유사도와 동일
장점 : 모든 벡터가 원점을 중심으로 이동되고 벡터간의 비교가 더 쉬워짐, 정규화 효과

단어 임베딩(word embedding)

텍스트를 행렬 또는 벡터로 표현하는 방법

BOW(bag of word)

워드 임베딩 방법 중 가장 기본적인 방법
문서들에 나타나는 단어수(N)에따라 Nx1의 벡터로 단어별 카운트하여 표현
단순히 단어 빈도로 중요도를 가늠하기 어려움

TF-IDF(term freq-inverse document freq)

한 문서에서 중요한 단어를 카운트가 아닌 문서군 전체를 보고 판단하자
어떤 단어가 한 문서에서 자주나오면 중요하지만 이단어가 다른 문서에서는 잘 나오지 않는다면 더 중요하다고 볼수 있으리무리하지요
- tf : 문서 또는 문장 내에서의 단어 빈도수
- df : 해당 단어가 나오는 문서 또는 문장의 총 개수
- N : 전체 문서 또는 문장 개수
  
  tf-idf score = tf x log(N/df)
단점
- 순서를 파악하기 어려움
- 단어수, 문서수에따라 행렬(벡터) 사이즈가 커짐
- 단어간 관계 파악이 어려움

원하는 대로 살자

이전 포스트

Object Detection_SSD

다음 포스트

[TIL] 20210304_SVD , PCA

0개의 댓글