벡터 데이터베이스, 생성형 AI에 적합한 비정형 데이터베이스

ssook·2024년 11월 8일

🖇️ 벡터 데이터베이스에 대한 글을 쓰게 된 계기

사내 이메일로 온 뉴스 레터에서 벡터 데이터베이스에 관한 기사를 보게 되면서 이 개념에 대해 간단하게 파악해보고자 한다.

그리고 무엇보다 많은 회사(우리 회사 포함) 생성형 AI 프로젝트들을 업무 내에 시범적으로 도입하고 있는데, 이 생성형 AI에 가장 적합한 데이터베이스가 벡터 데이터베이스라고 하니…

더 흥미가 생겨 조금 간단하게라도 알아보고자 한다.

🖇️ 벡터 데이터베이스에 대한 내용들

✔️ 벡터 데이터베이스의 개념

벡터 데이터베이스는 고차원 벡터 데이터를 저장, 관리 및 인덱싱하는 시스템으로, 이 때 저장되는 데이터는 숫자 배열인 벡터로 저장되며, 유사성을 기반으로 클러스터링한다.

이는 AI 애플리케이션에 이상적이며, 생성형 AI 사용 사례에 필요한 속도와 성능을 제공한다.

😯 기존 정형 데이터베이스와의 차이점

기존 (정형) 데이터베이스: 행과 열로 구성된 정형 데이터를 관리하는 데 이용한다. (스프레드시트 형태)
벡터 데이터베이스: 고차원 벡터 임베딩을 사용하여 비정형 데이터를 효과적으로 처리한다.
- 벡터 데이터베이스는 AI 시스템의 기반이 되는 벡터에 초점을 맞추기 때문에, 데이터베이스보다는 AI 기반 검색 엔진에 가깝다.

👀 벡터란?

벡터는 n차원 공간의 숫자 그룹으로, 머신 러닝에서 중요한 역할을 한다. 예를 들어, 텍스트, 이미지, 오디오 데이터를 벡터 기반 형태로 표현하면 AI 모델이 해당 데이터를 처리할 수 있다.

✔️ 벡터 임베딩이란?

비정형 데이터를 숫자 배열로 변환하는 과정이다. AI 모델이 데이터를 이해하기 위해 필요한 필수 데이터 전처리 과정이다.

✔️ 벡터 데이터베이스의 장점

속도 및 성능: 빠른 검색과 처리
확장성: 대규모 데이터 처리 가능
소유 비용 절감: 효율적인 데이터 관리
유연성: 이미지, 동영상 또는 기타 다차원 데이터를 사용할 때 추가되는 복잡성을 처리하도록 구축됨. 다양한 AI 애플리케이션에 적용 가능

벡터 데이터베이스는 벡터 인덱싱 및 최근접 이웃 검색과 같은 거리 계산 알고리즘을 사용하여 검색 결과가 빠르게 나오는 특징이 있다. 따라서 수백만 개의 데이터 포인트가 있는 대규모 데이터 세트에서 관련 결과를 검색할 때 속도를 높여 검색 알고리즘의 성능을 최적화하는 데 큰 도움이 된다. 다만, 벡터 데이터베이스의 검색은 대략적인 결과를 제공할 뿐이다. 더 높은 정확도가 필요한 애플리케이션이라면, 처리 속도가 느려지더라도 다른 종류의 데이터베이스를 사용해야 한다.

✔️ 벡터 데이터베이스 사용 사례

검색 증강 생성(RAG): LLM이 외부 지식 기반에서 팩트를 검색
대화형 AI: 가상 에이전트의 상호작용 개선
추천 엔진: 고객 선호도에 기반한 상품 추천
벡터 검색: 유사한 항목이나 데이터 포인트를 검색

✔️ 벡터 데이터베이스의 전망

벡터 데이터베이스는 AI와 머신 러닝 기술의 발전과 함께 더욱 중요해질 것이다.

특히, 다음과 같은 분야에서 큰 역할을 할 것으로 기대된다:

의료 분야: 환자의 의료 기록을 분석하여 맞춤형 치료법을 추천
금융 분야: 거래 데이터를 분석하여 사기 탐지 및 리스크 관리
소셜 미디어: 사용자 행동을 분석하여 개인화된 콘텐츠 추천

벡터 데이터베이스는 단순히 데이터를 저장하는 것이 아니라, 데이터 내에서 가장 의미 있는 연관성을 찾아내는 특징을 가지고 있다.

따라서 특정 데이터에 대한 정확한 검색보다는 연관된 여러 데이터를 함께 가져와 인사이트를 제공하는 데 강점이 있다.

🖇️ 끝으로 글을 마치며...

예전에 데이터 관련 시험의 이론을 준비할 때. 정형/반정형/비정형 데이터 베이스를 토픽으로 하는 내용을 공부했었던 적이 있다.

비정형 데이터베이스에 이미지/텍스트 이런 정도의 내용만 들어갔었는데, 이제는 그 비정형 데이터베이스의 예시로 생성형 AI에 적합한 벡터 데이터베이스도 추가될 것 같아 보인다.

저번에도 포스팅에도 적었던 것 같지만, 항상 IT 업계에 있으며 IT 트렌드는 계속 변하고, 그에 따른 기업의 전략도. 그리고 이번처럼 책에 적히는 이론도 빠르게 변화하는 것을 느낀다.

IT인들이 꾸준히 공부하고, 기록해야 하는 이유가 여기서 나오는 것이 아닐까?

ssook

개발자에서, IT Business 담당자로. BrSE 업무를 수행하고 있습니다.