LangChain Retrieval-Text Embeddings
Embedding
- 텍스트 데이터를 숫자로 이루어진 벡터로 변환하는 과정
- 숫자로 다룰 수 있기 때문에 유사성이나 텍스트 데이터 기반의 머신러닝 및 자연어 처리 작업 진행을 할 수 있다.
- 청크를 적절한 수치로 변환하는 것이 잘 되어야 올바른 답변이 가능하다
활용
- 의미 검색 : 백터 표현을 활용하여 의미적으로 유사한 텍스트를 검사하여 사용자의 쿼리에 대해 관련성이 높은 문서나 정보를 찾아내는 데 활용한다.
- 문서 분류 : 임베딩된 텍스트 벡터를 사용하여 문서를 특정 카테고리나 주제에 분류하는 것에 사용한다.
- 텍스트 유사도 계산 : 두 텍스트 벡터 사이의 거리를 계산하여 텍스트 간의 유사성 정도를 정량적으로 평가한다.
임베딩 모델 제공자
유료 임베딩
- 기업에서 제공하는 것으로 비용내고 API 통신을 사용하기에 보안에 취약, 다국어 지원, GPU 없이도 빠른 임베딩
- ex. OpenAI, Google
로컬 임베딩
- 무료로 사용 가능, 오픈 소스 모델사용하기에 보안에 안전, 모델마다 지원하는 언어가 다름.
- ex. Hugging Face
코사인 유사도
- 두 벡터 간의 코사인 각을 이용해서 유사성을 측정하는 방법
참고