LangChain Retrieval-Text Embeddings

Jae·2024년 10월 20일

Embedding

  • 텍스트 데이터를 숫자로 이루어진 벡터로 변환하는 과정
  • 숫자로 다룰 수 있기 때문에 유사성이나 텍스트 데이터 기반의 머신러닝 및 자연어 처리 작업 진행을 할 수 있다.
  • 청크를 적절한 수치로 변환하는 것이 잘 되어야 올바른 답변이 가능하다

활용

  • 의미 검색 : 백터 표현을 활용하여 의미적으로 유사한 텍스트를 검사하여 사용자의 쿼리에 대해 관련성이 높은 문서나 정보를 찾아내는 데 활용한다.
  • 문서 분류 : 임베딩된 텍스트 벡터를 사용하여 문서를 특정 카테고리나 주제에 분류하는 것에 사용한다.
  • 텍스트 유사도 계산 : 두 텍스트 벡터 사이의 거리를 계산하여 텍스트 간의 유사성 정도를 정량적으로 평가한다.

임베딩 모델 제공자

유료 임베딩

  • 기업에서 제공하는 것으로 비용내고 API 통신을 사용하기에 보안에 취약, 다국어 지원, GPU 없이도 빠른 임베딩
  • ex. OpenAI, Google

로컬 임베딩

  • 무료로 사용 가능, 오픈 소스 모델사용하기에 보안에 안전, 모델마다 지원하는 언어가 다름.
  • ex. Hugging Face

코사인 유사도

  • 두 벡터 간의 코사인 각을 이용해서 유사성을 측정하는 방법

참고

0개의 댓글