[FAST API] 아주 간단한 파이썬 코드 fast api로 배포하기 #1

군자·2024년 4월 4일

FASTAPI

목록 보기

2/4

출처

https://wikidocs.net/31698

https://yeong-jin-data-blog.tistory.com/entry/TF-IDF-Term-Frequency-Inverse-Document-Frequency

https://www.google.com/url?

https://medium.com/@milana.shxanukova15/cosine-distance-and-cosine-similarity-a5da0e4d9ded

시작하기에 앞서 우리 프로젝트에 대해 간단하게 설명하고 넘어가겠다.

우리는 해시태그 기반 추천 서비스 가 하위 요소로 있는 블로그 제작 프로젝트를 진행하고 있다.
원래는 좀 더 거창했지만 프로젝트가 구체화되는 과정에서 알고리즘이 굉장히 간단해졌다.

결과적으로, TF-IDF, cosine similarity를 이용한 추천 서비스를 구현하게 될 계획이다.

TF-IDF란?

TF-IDF(Term Frequency-Inverse Document Frequency)는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법. 우선 DTM을 만든 후, TF-IDF 가중치를 부여합니다.
(DTM은 문서 단어 행렬, 즉 문서에서 단어의 등장 빈도를 나타낸 행렬임.)

TF-IDF는 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다.

Cosine silmilarity란?

코사인 유사도는 두 벡터 간의 코사인 각도를 이용하여 구할 수 있는 두 벡터의 유사도를 의미합니다.
(우리 프로젝트에선 유저가 작성한 해시태그 간 유사도라고 할 수 있음.)

두 벡터의 방향이 완전히 동일한 경우에는 1의 값을 가지며, 90°의 각을 이루면 0, 180°로 반대의 방향을 가지면 -1의 값을 갖게 됩니다.
즉, 결국 코사인 유사도는 -1 이상 1 이하의 값을 가지며 값이 1에 가까울수록 유사도가 높다고 판단할 수 있습니다.

https://wikidocs.net/31698

위의 자료를 이용하여 서비스를 어떻게 배포하냐! 라고 생각이 들 것이다.
우리 프로젝트의 개요는 이렇다.

사용자가 해시태그를 작성한다.

사용자가 작성한 해시태그를 띄어쓰기로 구분되는 단순한 문자열 형태로 변환한다.

변환된 문자열을 다른 사용자들의 문자열(해시태그)과 함께 tf-idf 행렬로 변경한다.

결과로 나온 tf-idf 행렬에 코사인 유사도를 적용한다.

특정 사용자를 값으로 넣을 시, 코사인 유사도가 가까운 순으로 정렬하여 유사한 사용자를 추천한다.

그리고 예상되는 필수 기능