[TIL] 벡터 데이터베이스(vector db)

김민재·2025년 4월 3일

TIL

목록 보기
174/194

🩺 벡터 DB

  • 데이터베이스의 일종으로, 데이터를 벡터 형식으로 저장하고 검색하는 시스템을 의미한다. 일반적으로 기계 학습(ML)과 자연어 처리(NLP)에서 많이 사용된다.

🗯 벡터 DB의 개념

  • 벡터: 데이터 포인트를 고차원의 수치 배열로 변환한 것, 단어를 벡터로 변환하는 방식이다.

  • 벡터화: 데이터를 고차원의 숫자 배열로 변환하는 과정이다. "가나다라"라는 텍스트를 벡터화하면 문자는 숫자로 변환되어 저장이 된다.

  • 유사성 검색: 비슷한 의미를 가진 단어들을 벡터 공간에서 찾을 수 있다.

📄 벡터 DB의 주요 사용 사례

  1. 자연어 처리(NLP): 단어 , 문장, 문서 등을 벡터로 변환하고, 의미적으로 유사한 텍스트를 찾는 데 사용된다.

  2. 추천 시스템: 사용자의 과거 행동을 벡터로 표현하고, 비슷한 행동을 가진 다른 사용자나 아이템을 추천하는 데 사용된다.

  3. 이미지 검색: 이미지 데이터를 벡터로 변환하여 비슷한 이미지를 찾는 데 사용된다.

  4. 음성 및 오디오 검색: 오디오 데이터를 벡터화하여 유사한 오디오 클립을 검색한다.

🌐 벡터 DB의 장점

  • 빠른 유사성 검색: 고차원 데이터를 빠르게 비교하고 유사한 항목을 찾을 수 있다.

  • 효율적인 대규모 데이터 처리: 수백만 개 이상의 벡터를 효율적으로 처리할 수 있다.

profile
개발 경험치 쌓는 곳

0개의 댓글