LangChain Retrieval-Text Embeddings

Jae·2024년 10월 20일

Embedding

텍스트 데이터를 숫자로 이루어진 벡터로 변환하는 과정
숫자로 다룰 수 있기 때문에 유사성이나 텍스트 데이터 기반의 머신러닝 및 자연어 처리 작업 진행을 할 수 있다.
청크를 적절한 수치로 변환하는 것이 잘 되어야 올바른 답변이 가능하다

활용

의미 검색 : 백터 표현을 활용하여 의미적으로 유사한 텍스트를 검사하여 사용자의 쿼리에 대해 관련성이 높은 문서나 정보를 찾아내는 데 활용한다.
문서 분류 : 임베딩된 텍스트 벡터를 사용하여 문서를 특정 카테고리나 주제에 분류하는 것에 사용한다.
텍스트 유사도 계산 : 두 텍스트 벡터 사이의 거리를 계산하여 텍스트 간의 유사성 정도를 정량적으로 평가한다.

임베딩 모델 제공자

유료 임베딩

기업에서 제공하는 것으로 비용내고 API 통신을 사용하기에 보안에 취약, 다국어 지원, GPU 없이도 빠른 임베딩
ex. OpenAI, Google

로컬 임베딩

무료로 사용 가능, 오픈 소스 모델사용하기에 보안에 안전, 모델마다 지원하는 언어가 다름.
ex. Hugging Face

코사인 유사도

두 벡터 간의 코사인 각을 이용해서 유사성을 측정하는 방법

참고

이전 포스트

Langchain- Retrieval - Text Splitters

다음 포스트

LangChain Retrieval - Vector Stores

0개의 댓글