Retriever

문건희·2025년 3월 10일

검색기(Retriever)

01. 벡터스토어 기반 검색기(VectorStore-backed Retriever)

개요

  • 문서를 벡터 임베딩(Vector Embedding)으로 변환한 후, 벡터 검색(Vector Search) 방식을 통해 관련 문서를 검색하는 방법입니다.
  • 기존 키워드 기반 검색보다 의미적 유사성을 고려한 검색이 가능하여 보다 정확한 결과를 제공합니다.
  • 주로 자연어 검색, 챗봇, 문서 검색 시스템 등에 사용됩니다.

특징

  • 고속 검색: 사전 계산된 벡터를 사용하여 빠른 검색이 가능
  • 의미 기반 검색: 키워드 일치가 아닌 의미적 유사성으로 검색 가능
  • 확장성: 대용량 데이터에도 효율적으로 적용 가능

02. 문서 압축기(ContextualCompressionRetriever)

개요

  • 검색된 문서를 압축하여 더 중요한 부분만 남기는 방식입니다.
  • 긴 문서를 검색할 때 요약 기능을 적용하여 정보량을 줄이면서도 중요한 내용을 유지합니다.

특징

  • 정보 밀도 증가: 문서의 핵심 정보를 추출하여 검색 결과를 최적화
  • 메모리 절약: 저장 공간을 줄이고 빠른 검색 가능
  • 긴 문서 처리에 유리: 논문, 보고서 등 장문의 텍스트를 검색할 때 유용

03. 앙상블 검색기(Ensemble Retriever)

개요

  • 여러 검색 방식을 조합하여 최적의 결과를 반환하는 방식입니다.
  • 키워드 기반 검색과 벡터 검색을 함께 활용하여 검색 정확도를 높입니다.

특징

  • 복합 검색 가능: 다양한 검색 방법을 조합하여 최적의 결과 제공
  • 유연한 구조: 특정 검색 모델에 의존하지 않고 다양한 방식 조합 가능
  • 다양한 도메인 적용 가능: 기업 데이터베이스, 뉴스, 논문 검색 등에 활용

04. 긴 문서 재정렬(LongContext Reorder)

개요

  • 긴 문서를 검색할 때, 중요한 문장이 앞에 오도록 재정렬하는 기법입니다.
  • 문서 내에서 핵심적인 정보를 강조하는 방식으로 검색 결과의 가독성을 높입니다.

특징

  • 검색 후처리 기능: 검색된 문서의 내용을 재정렬하여 가독성 향상
  • 핵심 정보 강조: 문서 내 중요한 정보를 먼저 제공하여 사용자 편의성 증가
  • 긴 문서 최적화: 뉴스 기사, 논문, 보고서 검색 시 유용

05. 부모 문서 검색기(ParentDocument Retriever)

개요

  • 검색 시 작은 문서 조각이 아닌, 전체 문서를 반환하는 방식입니다.
  • 문서의 일부분이 아니라 전체 컨텍스트를 제공하여 검색 품질을 향상시킵니다.

특징

  • 전체 문서 기반 검색: 작은 조각이 아닌 원본 문서 제공
  • 컨텍스트 유지: 문서의 흐름과 의미를 유지한 검색 가능
  • 대용량 문서 검색에 적합: 논문, 법률 문서, 연구 보고서 검색 등에 활용 가능

06. 다중 쿼리 생성 검색기(MultiQuery Retriever)

개요

  • 하나의 질문에서 여러 개의 변형된 질문을 생성하여 검색 성능을 향상시킵니다.
  • 사용자 질의를 다양한 방식으로 변환하여 검색 실패 가능성을 줄입니다.

특징

  • 유연한 질의 생성: 다양한 표현 방식으로 질문을 변환하여 검색 성능 향상
  • 다양한 응답 확보: 단일 질의 대비 더 많은 관련 문서 검색 가능
  • 자연어 처리 기반 검색 개선: 질문의 의미를 확장하여 보다 포괄적인 검색 가능

07. 다중 벡터 검색기(MultiVector Retriever)

개요

  • 문서를 여러 개의 벡터로 변환하여 검색 정확도를 높이는 방식입니다.
  • 기존 벡터 검색보다 더 정밀한 검색이 가능하며, 문서 내 다양한 요소를 고려합니다.

특징

  • 다양한 정보 포착 가능: 하나의 문서를 여러 개의 벡터로 변환하여 검색 품질 향상
  • 고정밀 검색 가능: 문서의 특정 부분을 별도로 분석하여 세밀한 검색 제공
  • 대용량 데이터 검색 최적화: 검색 엔진, 문서 검색 시스템 등에 활용 가능

08. Self-Query Retriever

개요

  • 사용자의 질문을 분석하여 적절한 필터링을 자동으로 수행하는 검색기입니다.
  • 메타데이터를 활용하여 특정 조건에 맞는 문서만 검색합니다.

특징

  • 자동 필터링: 사용자의 질의에 맞춰 문서를 자동으로 필터링 가능
  • 정확한 검색 결과: 불필요한 검색 결과를 줄이고 관련성 높은 문서 제공
  • 데이터베이스 검색 최적화: 법률 문서, 의료 문서 검색 등에 활용 가능

09. TimeWeightedVectorStore Retriever

개요

  • 시간 가중치를 적용하여 최신 문서를 우선 검색하는 방식입니다.
  • 오래된 문서보다 최신 문서를 검색 결과에 더 많이 포함하는 방식으로 최신성이 중요한 경우 유용합니다.

특징

  • 최신 문서 우선 제공: 오래된 정보보다 최신 정보를 중심으로 검색
  • 시간에 따른 검색 최적화: 뉴스 검색, 실시간 트렌드 분석 등에 적합
  • AI 기반 검색 개선: 가중치 조절을 통해 사용자 맞춤형 검색 결과 제공


성능이 좋은 검색기(Retriever)

1. 벡터스토어 기반 검색기 (VectorStore-backed Retriever)

근거

  • 키워드 검색 방식보다 의미적 유사성을 고려하여 보다 정밀한 검색을 수행할 수 있음.
  • 사전 계산된 벡터를 사용하여 빠른 검색이 가능하며 확장성이 뛰어남.

특징

  • 고속 검색: 대용량 문서에서도 높은 정확도를 유지함.
  • 의미 기반 검색: 문서 간 유사성을 벡터 공간에서 분석 가능.

활용 분야

  • 자연어 검색, 챗봇, 문서 검색 시스템.

2. 문서 압축기 (ContextualCompressionRetriever)

근거

  • 검색된 문서를 요약하여 핵심 정보만 남겨 검색 결과의 품질을 향상시킴.
  • 긴 문서를 효율적으로 처리할 수 있으며, 정보 밀도를 증가시켜 보다 정확한 검색 결과 제공.

특징

  • 정보 밀도 증가: 불필요한 내용을 줄이고 핵심 정보를 강조.
  • 긴 문서 처리 최적화: 검색 시 요약을 제공하여 빠른 의사결정 가능.

활용 분야

  • 뉴스 요약, 연구 논문 검색, 대용량 데이터 검색.

3. 다중 쿼리 생성 검색기 (MultiQuery Retriever)

근거

  • 하나의 질문을 여러 개의 변형된 질문으로 변환하여 검색 정확도를 극대화함.
  • 다양한 표현 방식으로 질문을 변환하여 검색 성능을 높이고 다양한 응답 확보 가능.

특징

  • 다양한 질의 생성: 검색 실패 가능성을 줄이고 더 많은 관련 문서 검색 가능.
  • 자연어 이해력 향상: LLM을 활용하여 질문의 의미를 확장 가능.

활용 분야

  • 고객 서비스 AI, 자연어 검색 시스템, 챗봇.

4. Self-Query Retriever

근거

  • 사용자 질의를 분석하여 자동으로 필터링을 수행하고 불필요한 검색 결과를 줄임.
  • 관련성이 높은 검색 결과를 제공할 수 있도록 메타데이터를 활용한 필터링 가능.

특징

  • 자동 필터링: 사용자의 검색 의도에 맞는 문서를 찾아줌.
  • 정확한 검색 결과: 의미 기반 필터링으로 관련 문서만 제공.

활용 분야

  • 법률 문서 검색, 기업 데이터 검색, 의료 문서 검색.

5. TimeWeightedVectorStore Retriever

근거

  • 최신 문서를 우선 검색하여 시의성이 중요한 정보 검색에 적합함.
  • 오래된 문서보다 최신 문서를 중심으로 검색하여 실시간성이 필요한 환경에서 유용함.

특징

  • 최신 정보 우선 제공: 트렌드 변화에 따라 실시간 검색 가능.
  • 가중치 기반 검색: 시간 정보를 반영하여 검색 결과 조정 가능.

활용 분야

  • 뉴스 검색, 트렌드 분석, 금융 데이터 검색.

0개의 댓글