LangChain CH09-VectorStore

Jeong-yun Lee·2026년 1월 18일

LangChain

목록 보기

3/3

RAG(Retrieval-Augmented Generation) 시스템에서 일반적인 관계형 데이터베이스(RDBMS)나 단순 텍스트 검색이 아닌 벡터스토어(Vectorstore)를 반드시 사용해야 하는 이유는 크게 의미적 이해, 비정형 데이터 처리, 그리고 검색 효율성 때문입니다.

1. 키워드 검색의 한계와 의미 검색(Semantic Search)의 실현

전통적인 데이터베이스는 텍스트 자체가 저장되어 단어가 정확히 일치해야 찾는 키워드 기반 검색에 의존합니다. 반면, 벡터스토어는 사용자의 질문과 의미상으로 유사한 단락을 조회하는 의미 검색을 가능하게 합니다.

의미적 유사성 파악: 단어가 정확히 일치하지 않아도 질문의 의도를 파악하여 관련 정보를 찾아낼 수 있습니다.
복잡한 질의 해결: "모바일 디바이스 상에서 동작하는 인공지능 기술을 소개한 기업명은?"과 같이 맥락 파악이 필요한 질문에 효과적입니다.
임베딩 기술 활용: 텍스트를 고차원 공간의 벡터로 변환하여 의미적 거리를 계산하기 때문에 가능합니다.

2. 대규모 비정형 데이터의 효율적 관리

현대의 AI 서비스가 다루는 데이터는 텍스트뿐만 아니라 이미지, 영상 등 형태가 정해져 있지 않은 비정형 데이터가 대부분입니다.

밀집 벡터 처리: 고차원의 밀집 벡터(Dense Vector)를 효율적으로 저장하고 검색하는 특수 알고리즘을 제공합니다.
멀티모달 지원: 텍스트로 이미지를 검색하는 등 서로 다른 양식의 데이터를 동일한 벡터 공간에서 비교할 수 있습니다.
스케일러빌리티(Scalability): 데이터가 지속적으로 증가해도 성능 저하 없이 대규모 데이터를 수용하고 관리할 수 있는 구조를 보장합니다.

3. RAG 시스템의 응답 품질 직결

벡터스토어 저장 단계는 RAG 시스템의 검색 기능과 직접 연결되어 있으며, 전체 시스템의 정확성과 응답 시간에 결정적인 영향을 미칩니다.

신속한 정보 제공: 관련된 정보를 빠르게 찾아내어 LLM(대규모 언어 모델)에 전달함으로써 신속한 답변 생성을 돕습니다.
최적의 컨텍스트 추출: 질문과 가장 관련성이 높은 문맥을 정확하게 추출해야 LLM이 할루시네이션(환각 현상) 없이 정확한 답변을 할 수 있습니다.
고성능 검색 알고리즘: RAM 용량을 초과하는 대규모 데이터셋에서도 빠른 유사도 검색이 가능한 전문 알고리즘(예: FAISS의 인덱싱)을 사용합니다.

4. 요약: 왜 벡터스토어인가?

비교 항목	일반 DB (Keyword-based)	벡터스토어 (Semantic-based)
검색 방식	텍스트 일치 확인	벡터 간 거리(유사도) 계산
검색 대상	정형화된 텍스트 및 숫자	텍스트, 이미지 등 비정형 데이터
이해 수준	단어의 형태적 일치	문맥과 질문의 의도 이해
주요 용도	단순 데이터 조회, 필터링	인공지능 답변 생성(RAG), 추천 시스템

발표 시 이 내용을 통해 "데이터의 형태와 검색의 질이 달라졌기 때문에, 그에 맞는 새로운 저장소인 벡터스토어가 필수적이다"라는 점을 강조하시면 좋습니다.

발표 자료의 전문성을 높이기 위해, 키워드 검색과 의미 검색의 차이를 보여주는 구체적인 비교 사례(Case Study)를 더 구성해 드릴까요?

5. 벡터스토어 3종 핵심 기능 및 구현 코드

① FAISS (Facebook AI Similarity Search)

Meta AI에서 개발한 라이브러리로, 로컬 환경에서 밀집 벡터의 효율적인 검색과 병합에 최적화되어 있습니다.

핵심 특징: RAM에 맞지 않는 대규모 벡터 집합도 검색 가능하며, 여러 인덱스를 하나로 병합하는 merge_from 기능을 제공합니다.
주요 코드:

from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings

# 1. 문서로부터 인덱스 생성
db = FAISS.from_documents(documents=split_doc1, embedding=OpenAIEmbeddings())

# 2. 로컬 디스크에 저장 및 로드
db.save_local(folder_path="faiss_db", index_name="faiss_index")
loaded_db = FAISS.load_local("faiss_db", OpenAIEmbeddings(), allow_dangerous_deserialization=True)

# 3. 인덱스 병합
db.merge_from(db2)

② Chroma

개발자 생산성에 초점을 맞춘 AI 네이티브 오픈소스 벡터 데이터베이스로, 이미지 검색과 같은 멀티모달 기능을 강력하게 지원합니다.

핵심 특징: 로컬 디스크에 데이터를 영구 저장(persist_directory)할 수 있으며, 텍스트 설명으로 이미지를 찾는 멀티모달 컬렉션을 쉽게 구축합니다.
주요 코드:

from langchain_chroma import Chroma

# 1. 로컬 영구 저장소 생성
db = Chroma.from_documents(
    documents=split_doc1, 
    embedding=OpenAIEmbeddings(), 
    persist_directory="./chroma_db", 
    collection_name="nlp_collection"
)

# 2. 멀티모달 이미지 추가
image_db = Chroma(collection_name="multimodal", embedding_function=image_embedding_function)
image_db.add_images(uris=image_uris)

③ Pinecone

고성능 완전 관리형 클라우드 서비스로, 키워드와 의미를 결합한 하이브리드 검색과 대규모 병렬 처리에 특화되어 있습니다.

핵심 특징: Dense 벡터와 Sparse 벡터를 결합한 Hybrid Search를 지원하며, Reranking을 통해 결과의 정확도를 높입니다.
주요 코드:

from langchain_teddynote.community.pinecone import init_pinecone_index, PineconeKiwiHybridRetriever

# 1. 하이브리드 인덱스 초기화
pinecone_params = init_pinecone_index(
    index_name="teddynote-db",
    api_key=os.environ["PINECONE_API_KEY"],
    sparse_encoder_path="./sparse_encoder.pkl",
    embeddings=UpstageEmbeddings(model="solar-embedding-1-large-query"),
    alpha=0.5 # Dense(의미)와 Sparse(키워드) 가중치 조절
)

# 2. 검색기 생성 및 실행
retriever = PineconeKiwiHybridRetriever(**pinecone_params)
results = retriever.invoke("검색 쿼리")

6. 어떤 상황에서 무엇을 선택해야 할까?

발표 시 청중들에게 다음과 같은 기준을 제시하여 의사결정을 도울 수 있습니다.

선택 기준	추천 도구	선정 이유
비용 효율 및 로컬 제어	FAISS	인프라 비용 없이 로컬 환경에서 가장 빠른 검색 성능을 제공함.
빠른 개발 및 멀티모달	Chroma	설치가 간편하고 이미지-텍스트 통합 검색이 필요한 프로젝트에 최적임.
상용 서비스 & 대규모 확장	Pinecone	완전 관리형 서비스로 서버 관리 부담이 없으며, 하이브리드 검색으로 최고의 정확도를 보장함.

7. 핵심 요약

FAISS는 로컬 인덱싱과 병합 기능이 필요한 속도 중심의 프로젝트에 적합합니다.
Chroma는 개발 편의성과 이미지 검색이 중요한 멀티모달 환경에서 강력합니다.
Pinecone은 대규모 데이터 확장성과 하이브리드 검색을 통한 정확도가 필수적인 기업용 서비스에 필수적입니다.

이러한 벡터스토어의 적절한 선택은 RAG 시스템의 응답 신뢰성과 신속성을 확보하는 첫걸음입니다.

Jeong-yun Lee

push hard 🥕

이전 포스트