
ChatGPT 등 LLM 등장 이후 중요성 대두
hallucination 방지, 검색 기능 강화
1. Indexing: PQ(Product Quantization), LSH(Locality-Sensitive Hashing), HNSW(Hierachical Navigable Small World) 와 같은 알고리즘을 사용하여 벡터 인덱싱
2. Querying: query 벡터를 indexing 된 데이터셋의 벡터들과 비교하여 최근접 이웃을 찾는다. 이 과정에서 특정 유사도 측정 방식이 사용되며, 이 유사도 측정은 해당 인덱스에 의해 정의된 방식을 따른다.
3. Post Processing: (일부) 최종 결과를 반환하기 전에 후처리 작업 수행
벡터 db는 원본 데이터와 임베딩 벡터를 저장한다. 텍스트, 이미지, 오디오 등 비정형 데이터로 임베딩을 생성하고 저장, 유사도 검색을 실행할 수 있다.
![]() | ![]() | ![]() |
|---|
Sparse embedding
Dense embedding

ANN(Approximate nearest neighbours)
- 대규모 고차원 데이터셋에서 정확한 최근접 이웃을 찾는 대신(kNN, brute-force search), 근사치의 최근접 이웃을 빠르게 찾는 방법 (검색 속도와 정확도 사이의 trade-off)
- 다양한 Indexing 방법을 통해 ANN을 구현한다.
![]() | ![]() |
|---|
Vector indexing intelligently orginizes the vector embeddings to optimize the retrieval process.
Hash-based index
Tree-based index
Graph-based index
-> search process through the multi-layer structure of an HNSW graph
Inverted file index
![]() | ![]() |
|---|
참고
Vector databases (3): Not all indexes are created equal
What is a Vector Database & How Does it Work? Use Cases + Examples
Hybrid Search Revamped
Dense Vectors in Natural Language Processing
Dense Vectors: Capturing Meaning with Code
Intro to NLP Part II: Word Embedding
Passage Retrieval - Dense Embedding
Vector Indexes in Postgres using pgvector: IVFFlat vs HNSW
How To Implement Inverted Indexing - Top 10 Tools & Future Trends
Scaling up with FAISS(Scailing Up)
Understanding Vector Indexing: A Comprehensive Guide