LangChain은 초거대언어모델(LLM)을 쉽게 활용할 수 있도록 돕는 프레임워크다. 챗GPT, Meta의 LLaMA 등 다양한 LLM에 적용할 수 있으며, 대표적으로 로컬 DB로는 faiss나 chromadb가 클라우드 네이티브로는 pinecone 같은 벡터 데이터베이스를 활용해 정보를 효율적으로 저장하고 조회한다.
벡터 스토어는 비정형 데이터를 고차원 벡터로 변환해 저장하고, 벡터 간 유사도를 기반으로 데이터를 빠르게 조회하는 데이터베이스다. 기존의 관계형 데이터베이스(RDBMS)와는 달리 이미지, 텍스트 등의 비정형 데이터를 효과적으로 처리할 수 있다. 이들은 자연어 처리나 추천 시스템 등에서 널리 사용되며, 벡터 간의 유사도나 거리를 기반으로 데이터를 검색한다.
임베딩은 텍스트나 이미지를 고차원 벡터로 변환하는 과정이다. Word2Vec, GloVe, FastText 같은 알고리즘을 사용해 단어나 문장을 벡터로 변환하며, 유사한 의미의 단어나 문장은 벡터 공간에서 가까운 위치에 위치한다. 코사인 유사도는 두 벡터 간 유사도를 측정하는 대표적인 방법으로, 값이 1에 가까울수록 유사도가 높다.
Langchain관련 글을 포스팅하기 전에 VectorStore를 먼저 정리해야 할것 같아서 작성해보았다^^
Reference: