Vector DB - Embedding, Indexing

svenskpotatis·2024년 7월 26일

LLM 컨퍼런스 매니저 프로젝트

목록 보기

3/3

Vector DB

ChatGPT 등 LLM 등장 이후 중요성 대두
hallucination 방지, 검색 기능 강화
- 기존의 키워드 기반 검색에서 의미론적 유사성을 기반으로 한 검색 기능 제공

작동 원리

1. Indexing: PQ(Product Quantization), LSH(Locality-Sensitive Hashing), HNSW(Hierachical Navigable Small World) 와 같은 알고리즘을 사용하여 벡터 인덱싱
2. Querying: query 벡터를 indexing 된 데이터셋의 벡터들과 비교하여 최근접 이웃을 찾는다. 이 과정에서 특정 유사도 측정 방식이 사용되며, 이 유사도 측정은 해당 인덱스에 의해 정의된 방식을 따른다.
3. Post Processing: (일부) 최종 결과를 반환하기 전에 후처리 작업 수행

Embedding

벡터 db는 원본 데이터와 임베딩 벡터를 저장한다. 텍스트, 이미지, 오디오 등 비정형 데이터로 임베딩을 생성하고 저장, 유사도 검색을 실행할 수 있다.

Sparse vs Dense

Sparse embedding

Bag of Words 접근법: 텍스트의 구조나 순서를 무시하고, 단어의 출현 빈도만을 고려한다.
전체 어휘 크기에 해당하는 벡터가 생성된다. 예를 들어, 어휘가 10,000개 단어로 구성되어 있다면, 각 문서는 10,000차원의 벡터로 표현된다.
대부분의 문서가 전체 어휘의 작은 부분만을 사용하기 때문에, 일반적으로 90% 이상의 요소가 0인 sparse matrix가 된다.
검색 시 단어 간의 의미적 유사성을 고려하지 않고, 단어가 정확히 일치해야만 관련성이 있다고 판단한다.
TF-IDF

Dense embedding

ex. Hugging Face sentence-transformers, OpenAI Embedding API, Cohere Embedding API
유사한 의미를 가진 단어들이 벡터 공간에서 클러스터 형성
검색시 단어의 유사성이나 맥락 파악 가능
벡터의 차원이 낮을수록 임베딩 공간에서의 표현이 더 간결해진다. 높은 차원은 세밀한 특징 구분을 가능하게 하지만, 계산 복잡도가 증가하고 저장 공간이 많이 필요하다. (trade-off)

Indexing

ANN(Approximate nearest neighbours)

대규모 고차원 데이터셋에서 정확한 최근접 이웃을 찾는 대신(kNN, brute-force search), 근사치의 최근접 이웃을 빠르게 찾는 방법 (검색 속도와 정확도 사이의 trade-off)

다양한 Indexing 방법을 통해 ANN을 구현한다.