벡터 데이터베이스(Vector Database)

agnusdei·2025년 7월 23일

Database

목록 보기
76/76

📌 벡터 데이터베이스 (Vector Database)란?

벡터 데이터베이스는 고차원 벡터 공간 상에서 데이터를 저장하고, **벡터 간의 유사도 기반 검색(예: 근접 이웃 검색)**을 빠르게 수행하기 위한 특화된 데이터베이스입니다.
특히 **비정형 데이터(이미지, 텍스트, 음성 등)**를 **정형화된 벡터 표현(embedding)**으로 변환한 뒤 저장하고 검색하는 데 최적화되어 있습니다.


✅ 배경 및 필요성

▶ 전통적인 RDB의 한계

  • 문자열, 숫자 기반 정확한 일치 또는 범위 기반 검색에는 강점
  • 하지만 이미지, 문서, 자연어 등 비정형 데이터 간 의미 기반 유사성 검색에는 적합하지 않음

▶ 딥러닝·AI 시대의 요구

  • 텍스트 임베딩, 이미지 임베딩 등 고차원 특징 벡터 기반의 검색 요구 증가
  • 예: "이 이미지와 비슷한 것", "이 질문과 의미가 유사한 문장", "이 고객과 비슷한 행동 패턴"

🧠 핵심 구성 개념

구성 요소설명
임베딩(Embedding)텍스트/이미지/음성을 벡터로 변환 (예: 512차원, 768차원)
유사도 함수코사인 유사도(Cosine), 유클리디안 거리, 내적(Dot Product) 등
인덱싱 기법HNSW, IVF, PQ 등 고차원 벡터 인덱스
ANN 검색Approximate Nearest Neighbor: 정확도 대신 속도 우선 탐색 방식

📦 작동 방식

  1. 데이터 입력

    • 예: "고양이 이미지" → CNN or CLIP → 512차원 벡터로 임베딩
  2. 벡터 저장

    • 벡터 DB에 저장 및 인덱싱 (HNSW, IVF 등)
  3. 유사도 검색

    • 입력 쿼리 벡터와 가장 유사한 벡터를 ANN으로 빠르게 탐색
  4. 결과 반환

    • Top-K 유사 항목(예: 가장 유사한 이미지 5개 등) 반환

🔧 주요 인덱싱 기술

알고리즘특징
HNSW (Hierarchical Navigable Small World)빠르고 정확한 근사 최근접 이웃 검색, 그래프 기반
IVF (Inverted File Index)벡터 공간을 클러스터로 나눈 후 탐색
PQ (Product Quantization)메모리 효율화 위한 벡터 압축
Flat정확하지만 속도 느림 (brute-force 전체 비교)

🚀 주요 활용 사례

분야적용 예
검색 엔진유사 이미지 검색, 유사 문서 검색
챗봇/LLM임베딩 기반 벡터 검색 (예: RAG: Retrieval-Augmented Generation)
추천 시스템사용자 행동 벡터 기반 유사 사용자 추천
보안얼굴 인식, 이상 탐지 (anomaly detection)
로보틱스/자율주행주변 환경 인식, 라이다/비전 벡터 매칭

🔍 주요 벡터 데이터베이스 제품

제품특징
MilvusHNSW, IVF 지원, GPU 가속, 대용량 처리 가능
Pinecone클라우드 기반 벡터 검색 SaaS, 완전 관리형
WeaviateGraphQL 지원, 자체/외부 임베딩 모델 연동
QdrantRust 기반 고성능, 다양한 scoring 지원
FAISSMeta(Facebook) 오픈소스 라이브러리, ANN 연구 기준

📌 정리

벡터 데이터베이스란, 고차원 벡터 데이터를 저장하고, 유사도 기반으로 빠르게 검색하는 데이터베이스로, 비정형 데이터 처리와 AI 시대의 핵심 인프라로 부상하고 있다.

이는 전통적 RDBMS와는 전혀 다른 데이터 표현과 쿼리 방식을 갖는 AI 특화형 데이터 시스템이라 할 수 있습니다.


profile
DevSecOps Pentest🚩

0개의 댓글