벡터 데이터베이스는 고차원 벡터 공간 상에서 데이터를 저장하고, **벡터 간의 유사도 기반 검색(예: 근접 이웃 검색)**을 빠르게 수행하기 위한 특화된 데이터베이스입니다.
특히 **비정형 데이터(이미지, 텍스트, 음성 등)**를 **정형화된 벡터 표현(embedding)**으로 변환한 뒤 저장하고 검색하는 데 최적화되어 있습니다.
| 구성 요소 | 설명 |
|---|---|
| 임베딩(Embedding) | 텍스트/이미지/음성을 벡터로 변환 (예: 512차원, 768차원) |
| 유사도 함수 | 코사인 유사도(Cosine), 유클리디안 거리, 내적(Dot Product) 등 |
| 인덱싱 기법 | HNSW, IVF, PQ 등 고차원 벡터 인덱스 |
| ANN 검색 | Approximate Nearest Neighbor: 정확도 대신 속도 우선 탐색 방식 |
데이터 입력
벡터 저장
유사도 검색
결과 반환
| 알고리즘 | 특징 |
|---|---|
| HNSW (Hierarchical Navigable Small World) | 빠르고 정확한 근사 최근접 이웃 검색, 그래프 기반 |
| IVF (Inverted File Index) | 벡터 공간을 클러스터로 나눈 후 탐색 |
| PQ (Product Quantization) | 메모리 효율화 위한 벡터 압축 |
| Flat | 정확하지만 속도 느림 (brute-force 전체 비교) |
| 분야 | 적용 예 |
|---|---|
| 검색 엔진 | 유사 이미지 검색, 유사 문서 검색 |
| 챗봇/LLM | 임베딩 기반 벡터 검색 (예: RAG: Retrieval-Augmented Generation) |
| 추천 시스템 | 사용자 행동 벡터 기반 유사 사용자 추천 |
| 보안 | 얼굴 인식, 이상 탐지 (anomaly detection) |
| 로보틱스/자율주행 | 주변 환경 인식, 라이다/비전 벡터 매칭 |
| 제품 | 특징 |
|---|---|
| Milvus | HNSW, IVF 지원, GPU 가속, 대용량 처리 가능 |
| Pinecone | 클라우드 기반 벡터 검색 SaaS, 완전 관리형 |
| Weaviate | GraphQL 지원, 자체/외부 임베딩 모델 연동 |
| Qdrant | Rust 기반 고성능, 다양한 scoring 지원 |
| FAISS | Meta(Facebook) 오픈소스 라이브러리, ANN 연구 기준 |
벡터 데이터베이스란, 고차원 벡터 데이터를 저장하고, 유사도 기반으로 빠르게 검색하는 데이터베이스로, 비정형 데이터 처리와 AI 시대의 핵심 인프라로 부상하고 있다.
이는 전통적 RDBMS와는 전혀 다른 데이터 표현과 쿼리 방식을 갖는 AI 특화형 데이터 시스템이라 할 수 있습니다.