아래는 주신 내용을 벨로그에 올리기 위해 더욱 자세하고 체계적으로 정리한 버전입니다.
- Reranker 개요
- Reranker의 작동 원리
- Reranker의 기술적 특징
- Reranker의 학습 방법
- Retriever와의 차이점
- Reranker의 장단점
Reranker(리랭커)는 현대적인 두 단계 검색 시스템(Two-Stage Retrieval System)에서 사용되는 핵심 컴포넌트입니다. 이 시스템은 대규모 데이터셋에서 효율적이고 정확한 검색을 수행하기 위해 설계되었으며, 주로 검색 시스템의 두 번째 단계에서 초기 검색 결과의 순위를 재조정하는 역할을 합니다.
Reranker는 Retriever가 반환한 초기 검색 결과를 입력으로 받아 처리합니다. 이 단계에서 관련성이 높은 후보 문서들이 Reranker의 입력으로 제공됩니다.
각 쿼리와 후보 문서는 쌍(pair)으로 결합되어 처리됩니다. 이 쌍들은 트랜스포머 기반의 복잡한 모델을 통해 의미적 관련성을 평가받습니다.
특성 | Retriever | Reranker |
---|---|---|
목적 | 관련 문서를 빠르게 검색 | 정확한 순위 조정 |
처리 방식 | 간단한 유사도 계산 | 복잡한 의미 분석 |
모델 구조 | 단일 인코더 | 교차 인코더 |
연산 복잡도 | 낮음 | 높음 |
우선순위 | 속도 | 정확도 |
입력 형태 | 쿼리와 문서 개별 처리 | 쿼리-문서 쌍 처리 |
출력 | 후보 문서 대규모 집합 | 정확한 순위와 점수 |
확장성 | 높음 | 제한적 |
아래는 주신 내용을 더욱 자세히 정리한 버전입니다. 각 부분을 세분화하고, 설명을 추가하여 Cross Encoder Reranker의 작동 원리와 사용 방법을 명확히 이해할 수 있도록 구성했습니다.
Cross Encoder Reranker는 검색 증강 생성(RAG) 시스템에서 검색 결과의 정확도를 향상시키기 위해 사용되는 중요한 기술입니다. 이 기술은 주로 Hugging Face의 Cross Encoder 모델을 활용하여, retriever가 반환한 검색 결과를 재정렬하여 사용자에게 가장 관련성 높은 문서를 제공하는 데 목적이 있습니다.
높은 연산 비용: Cross Encoder Reranker는 복잡한 연산을 필요로 하며, 이는 연산 비용을 증가시킵니다.
처리 시간: 모델의 복잡성 때문에 처리 시간이 길어질 수 있으며, 이는 실시간 검색 시스템에서는 응답 속도에 영향을 미칠 수 있습니다.
대규모 문서 집합에 적용하기 어려움: 처리해야 할 문서가 많아질수록, 모델의 확장성에 제한이 발생할 수 있습니다.
초기 검색 결과의 재조정: 일반적으로 초기 검색 단계에서 상위 k개의 문서만을 대상으로 reranking을 수행합니다. 이는 연산 비용을 줄이면서도 정확도를 높이기 위한 접근 방식입니다.
Bi-encoder와의 결합 사용: 빠른 검색을 위해 Bi-encoder를 사용하여 후보 문서들을 빠르게 추출한 후, Cross Encoder로 정확도를 높이는 방식으로 활용됩니다.
Hugging Face의 Cross Encoder 모델: Hugging Face
의 다양한 Cross Encoder 모델을 사용하여, 각 질문-문서 쌍의 관련성을 평가할 수 있습니다.
LangChain 프레임워크 통합: LangChain 등의 프레임워크에서 CrossEncoderReranker 컴포넌트를 사용하여 쉽게 통합할 수 있습니다.
정확한 유사도 측정: Cross Encoder Reranker는 정확한 유사도 측정이 가능하여, 검색 결과의 품질을 크게 향상시킬 수 있습니다.
심층적인 의미론적 유사성 탐색: 단순한 키워드 매칭을 넘어, 심층적인 의미론적 유사성을 탐색할 수 있어 보다 정확한 검색 결과를 제공할 수 있습니다.
검색 결과 개선: Reranker는 검색된 문서들을 의미적으로 재조정하여, 사용자가 원하는 결과를 더 정확하게 제공할 수 있습니다.
RAG 시스템 성능 향상: RAG 시스템에서 질문 응답의 품질을 높여줄 수 있는 중요한 역할을 합니다.
유연한 통합: 다양한 사전 학습 모델과 쉽게 통합할 수 있어, 특정 사용 사례에 맞는 최적의 모델을 선택할 수 있습니다.
상위 문서에 대한 Reranking: 일반적으로 상위 5~10개 문서에 대해 Reranking을 수행합니다.
실험과 평가를 통해 최적의 문서 수를 결정해야 합니다. 예를 들어, 문서의 수가 너무 많으면 연산 비용이 증가하고, 너무 적으면 성능이 저하될 수 있습니다.
정확도 vs 처리 시간: 높은 정확도를 위해서는 시간이 더 필요하지만, 이는 실시간 응답이 중요한 상황에서 문제가 될 수 있습니다.
성능 향상 vs 계산 비용: 성능을 향상시키려면 더 많은 계산 자원이 필요하며, 이는 운영 비용에 영향을 미칠 수 있습니다.
검색 속도 vs 관련성 정확도: 빠른 검색을 위해서는 관련성 정확도가 일부 희생될 수 있습니다.
아래 코드는 Cross Encoder Reranker를 구현하기 위한 기본 설정을 보여줍니다. 이 과정에서 Hugging Face의 임베딩 모델을 사용하여 문서를 인덱싱하고, retriever를 설정합니다.
# 문서 출력 도우미 함수
def pretty_print_docs(docs):
print(
f"\n{'-' * 100}\n".join(
[f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
)
)
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_huggingface import HuggingFaceEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter
# 문서 로드
documents = TextLoader("./data/appendix-keywords.txt").load()
# 텍스트 분할기 설정
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
# 문서 분할
texts = text_splitter.split_documents(documents)
# 임베딩 모델 설정
embeddingsModel = HuggingFaceEmbeddings(
model_name="sentence-transformers/msmarco-distilbert-dot-v5"
)
# 문서로부터 FAISS 인덱스 생성 및 검색기 설정
retriever = FAISS.from_documents(texts, embeddingsModel).as_retriever(
search_kwargs={"k": 10}
)
# 질의 설정
query = "Word2Vec 에 대해서 알려줄래?"
# 질의 수행 및 결과 문서 반환
docs = retriever.invoke(query)
# 결과 문서 출력
pretty_print_docs(docs)
문서 로드 및 분할
TextLoader
를 사용하여 appendix-keywords.txt
파일에서 문서를 로드합니다. 이 파일에는 분석할 텍스트 데이터가 포함되어 있습니다.RecursiveCharacterTextSplitter
는 긴 문서를 작은 청크로 분할합니다. 이 과정은 특히 자연어 처리 모델에서 중요한데, 긴 문서를 처리하기 위해 문서의 길이를 제한하는 데 사용됩니다. 여기서는 청크의 크기를 500자, 중첩(overlap)을 100자로 설정했습니다.임베딩 모델 설정
HuggingFaceEmbeddings
클래스를 사용하여 sentence-transformers/msmarco-distilbert-dot-v5 모델을 로드합니다. 이 모델은 텍스트를 벡터 형식으로 변환하여, 문서 간의 유사성을 계산하는 데 사용됩니다.FAISS 인덱스 생성 및 검색기 설정
FAISS.from_documents
를 사용하여 로드된 문서들을 인덱싱하고, 이를 기반으로 검색기를 설정합니다. 이 검색기는 사용자가 입력한 쿼리에 따라 관련성이 높은 상위 10개의 문서를 반환하도록 설정되었습니다.질의 설정 및 수행
retriever.invoke(query)
를 호출하여 쿼리에 해당하는 문서를 검색하고, retriever가 반환한 문서들을 받아옵니다.문서 출력
pretty_print_docs(docs)
함수를 사용하여 검색된 문서들을 출력합니다. 각 문서는 제목과 함께 내용이 정리되어 출력됩니다.다음 예시는 ContextualCompressionRetriever를 사용하여 Cross Encoder Reranker를 구현하는 방법을 보여줍니다. 이 예제에서는 Hugging Face의 BAAI/bge-reranker-v2-m3 모델을 사용하여 검색된 문서를 재정렬합니다.
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import CrossEncoderReranker
from langchain_community.cross_encoders import HuggingFaceCrossEncoder
# 모델 초기화
model = HuggingFaceCrossEncoder(model_name="BAAI/bge-reranker-v2-m3")
# 상위 3개의 문서 선택
compressor = CrossEncoderReranker(model=model, top_n=3)
# 문서 압축 검색기 초기화
compression_retriever = ContextualCompressionRetriever(
base_compressor=compressor, base_retriever=retriever
)
# 압축된 문서 검색
compressed_docs = compression_retriever.invoke("Word2Vec 에 대해서 알려줄래?")
# 문서 출력
pretty_print_docs(compressed_docs)
HuggingFaceCrossEncoder 모델 초기화
HuggingFaceCrossEncoder
클래스를 사용하여 BAAI/bge-reranker-v2-m3 모델을 초기화합니다. 이 모델은 입력된 쿼리와 문서 간의 의미적 유사성을 정밀하게 평가하여 점수를 반환합니다.CrossEncoderReranker 설정
CrossEncoderReranker
를 사용하여 상위 3개의 문서를 선택하도록 설정합니다. 이 컴포넌트는 HuggingFaceCrossEncoder
에서 반환된 점수를 기반으로 문서들을 재정렬합니다.ContextualCompressionRetriever 초기화
ContextualCompressionRetriever
를 초기화하여, base_compressor
로 CrossEncoderReranker를, base_retriever
로 이전에 설정한 retriever를 사용합니다. 이 설정은 retriever
에서 반환된 문서들을 CrossEncoderReranker
를 통해 압축된 상위 3개 문서로 재정렬합니다.압축된 문서 검색 및 출력
compression_retriever.invoke(query)
를 사용하여 쿼리에 대한 압축된 문서를 검색합니다. 이 과정에서 Cross Encoder Reranker가 문서들을 재정렬하여, 가장 관련성이 높은 문서들을 상위에 위치시킵니다.pretty_print_docs(compressed_docs)
함수를 통해 최종적으로 재정렬된 문서들을 출력합니다.아래는 compression_retriever.invoke("Word2Vec 에 대해서 알려줄래?")
를 실행했을 때, Cross Encoder Reranker가 반환한 상위 3개의 문서에 대한 출력 예시입니다:
Document 1:
Crawling
정의: 크롤링은 자동화된 방식으로 웹 페이지를 방문하여 데이터를 수집하는 과정입니다. 이는 검색 엔진 최적화나 데이터 분석에 자주 사용됩니다.
예시: 구글 검색 엔진이 인터넷 상의 웹사이트를 방문하여 콘텐츠를 수집하고 인덱싱하는 것이 크롤링입니다.
연관키워드: 데이터 수집, 웹 스크래핑, 검색 엔진
Word2Vec
정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.
예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.
연관키워드: 자연어 처리, 임베딩, 의미론적 유사성
LLM (Large Language Model)
----------------------------------------------------------------------------------------------------
Document 2:
Token
정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어 처리, 구문 분석
Tokenizer
정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.
예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.
연관키워드: 토큰화, 자연어 처리, 구문 분석
VectorStore
정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.
예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다.
연관키워드: 임베딩, 데이터베이스, 벡터화
SQL
----------------------------------------------------------------------------------------------------
Document 3:
Semantic Search
정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
Embedding
정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝
Token
Cross Encoder Reranker는 검색 시스템의 정확도를 극대화하는 데 있어 중요한 도구입니다. Hugging Face 모델과 LangChain 프레임워크를 통해 쉽게 통합 및 구현할 수 있으며, 문서의 유사도를 보다 정밀하게 평가하여 사용자에게 더 나은 검색 결과를 제공합니다.
이처럼 Cross Encoder Reranker는 대규모 데이터셋 처리에서 효과적으로 활용될 수 있으며, 사용자의 질문에 대해 정확한 답변을 제공하는 데 기여할 수### 결론 (이어서)
이처럼 Cross Encoder Reranker는 대규모 데이터셋 처리에서 효과적으로 활용될 수 있으며, 사용자의 질문에 대해 정확한 답변을 제공하는 데 기여할 수 있습니다. 특히, 검색 시스템의 첫 단계에서 retriever가 반환한 후보 문서들의 순위를 재조정함으로써, 최종 검색 결과의 품질을 크게 향상시킬 수 있습니다.
Cross Encoder Reranker는 단순한 검색 시스템을 넘어, 다양한 응용 분야에서 활용될 수 있습니다:
Cross Encoder Reranker의 성능을 최적화하는 과정에서 몇 가지 도전 과제와 고려사항이 있습니다:
Cross Encoder Reranker의 발전 가능성은 무궁무진하며, 향후 연구 및 개발 방향에 대한 몇 가지 제안을 할 수 있습니다:
앞서 제시한 예시들은 Cross Encoder Reranker를 활용하여 검색 시스템의 성능을 어떻게 향상시킬 수 있는지 보여줍니다. 아래는 주요 구현 예시들을 요약한 내용입니다:
기본 Retriever 설정 및 문서 출력
ContextualCompressionRetriever와 Cross Encoder Reranker 결합
Hugging Face CrossEncoder
를 사용하여 검색된 문서의 순위를 재조정하고, 상위 3개의 문서를 선택하여 사용자에게 더 정확한 정보를 제공합니다.이러한 예시들을 통해 Cross Encoder Reranker의 구현과 활용이 실무에서 어떻게 이루어질 수 있는지 명확히 이해할 수 있습니다.
Cross Encoder Reranker는 검색 시스템의 정확도를 높이는 데 매우 중요한 도구입니다. 이를 통해 검색된 문서들을 재정렬하여, 사용자가 찾고자 하는 정보를 더 정확하고 신속하게 제공할 수 있습니다. 이 기술은 특히 대규모 데이터셋을 다루는 현대의 정보 검색 시스템에서 그 유용성이 더욱 강조됩니다.
미래의 검색 시스템에서 Cross Encoder Reranker의 역할은 더욱 커질 것이며, 이를 통해 검색의 정확성, 신속성, 사용자 경험 모두에서 혁신적인 발전을 이룰 수 있을 것입니다.
이와 같은 체계적인 접근을 통해 Cross Encoder Reranker를 더욱 발전시키고, 다양한 응용 분야에서 그 활용을 극대화할 수 있기를 기대합니다.
아래는 Cohere Reranker에 대한 내용을 더욱 자세히 정리한 버전입니다. 각 단계별로 설명을 추가하여 이해를 돕고, Cohere Reranker의 활용 방법과 예제를 명확히 설명합니다.
Cohere Reranker는 Cohere라는 캐나다 스타트업에서 제공하는 자연어 처리 모델 중 하나로, 기업이 인간-기계 상호작용을 개선할 수 있도록 돕는 기술입니다. 이 모델은 retriever가 검색한 문서들의 순위를 재조정하여, 사용자에게 가장 관련성 높은 결과를 제공하는 데 사용됩니다.
이 문서에서는 Cohere Reranker를 사용하는 방법을 설명하고, 이를 통해 검색 결과의 품질을 향상시키는 방법을 소개합니다.
먼저, Cohere 라이브러리를 설치해야 합니다. 이를 위해 아래 명령어를 실행합니다:
# 설치
!pip install -qU cohere
Cohere API를 사용하기 위해서는 API 키를 설정해야 합니다. 이 키는 Cohere의 공식 웹사이트에서 발급받을 수 있으며, 발급받은 키를 .env
파일에 저장하여 환경변수로 관리할 수 있습니다.
from dotenv import load_dotenv
# API KEY 정보 로드
load_dotenv()
True
위 코드를 통해 .env 파일에 저장된 API 키를 로드하여, API 키를 환경변수로 관리할 수 있습니다.
LangSmith는 검색 시스템의 성능을 추적하고 분석하는 도구입니다. 프로젝트 이름을 설정하여, Cohere Reranker의 사용을 추적할 수 있습니다:
# LangSmith 추적을 설정합니다.
# !pip install langchain-teddynote
from langchain_teddynote import logging
# 프로젝트 이름을 입력합니다.
logging.langsmith("Reranker")
위 코드를 통해 프로젝트를 설정하고, Reranker의 사용을 추적할 수 있습니다.
먼저, 검색된 문서들을 보기 좋게 출력하기 위한 함수를 정의합니다:
def pretty_print_docs(docs):
print(
f"\n{'-' * 100}\n".join(
[f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
)
)
이 함수는 검색된 문서들을 Document 1
, Document 2
등의 형식으로 출력합니다.
Cohere는 다양한 다국어 지원 모델을 제공합니다. 아래는 주요 모델 목록입니다:
embed-multilingual-v3.0
, embed-multilingual-light-v3.0
, embed-multilingual-v2.0
rerank-multilingual-v3.0
, rerank-multilingual-v2.0
이 모델들은 다국어 텍스트를 효과적으로 처리할 수 있으며, 특히 다국어 환경에서의 검색 성능을 크게 향상시킵니다.
아래 코드는 문서를 로드하고, 검색기를 초기화하는 과정입니다:
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_cohere import CohereEmbeddings
# 문서 로드
documents = TextLoader("./data/appendix-keywords.txt").load()
# 텍스트 분할기 초기화
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
# 문서 분할
texts = text_splitter.split_documents(documents)
# 검색기 초기화
retriever = FAISS.from_documents(
texts, CohereEmbeddings(model="embed-multilingual-v3.0")
).as_retriever(search_kwargs={"k": 10})
문서 로드: TextLoader
를 사용하여 appendix-keywords.txt 파일에서 문서를 로드합니다.
텍스트 분할기 초기화: RecursiveCharacterTextSplitter
를 사용하여 로드된 문서를 500자 크기로 분할하며, 100자 중첩을 적용하여 문서의 자연스러운 흐름을 유지합니다.
검색기 초기화: FAISS 인덱스를 사용하여 문서를 인덱싱하고, Cohere Embeddings를 기반으로 검색기를 초기화합니다. 여기서 embed-multilingual-v3.0
모델이 사용되며, 상위 10개 문서를 반환하도록 설정되었습니다.
질의를 설정하고, 검색기를 통해 문서를 검색한 후 결과를 출력합니다:
# 질의문
query = "Word2Vec 에 대해서 알려줘!"
# 문서 검색
docs = retriever.invoke(query)
# 문서 출력
pretty_print_docs(docs)
"Word2Vec 에 대해서 알려줘!"
라는 형식으로 설정합니다.retriever.invoke(query)
를 통해 설정된 질의에 대한 검색을 수행합니다.pretty_print_docs(docs)
함수를 사용하여 검색된 문서를 출력합니다.이제 Cohere Reranker를 사용하여 검색된 문서의 순위를 재조정하는 방법을 설명합니다. 이 과정에서는 기본 retriever
를 ContextualCompressionRetriever로 감싸고, Cohere Reranker를 추가하여 결과를 재정렬합니다.
먼저, CohereRerank
모델을 설정합니다. 여기서는 rerank-multilingual-v3.0 모델을 사용합니다:
from langchain.retrievers.contextual_compression import ContextualCompressionRetriever
from langchain_cohere import CohereRerank
# 문서 재정렬 모델 설정
compressor = CohereRerank(model="rerank-multilingual-v3.0")
ContextualCompressionRetriever
를 초기화하여, base_compressor
로 CohereRerank를, base_retriever
로 기존의 retriever를 사용합니다:
# 문맥 압축 검색기 설정
compression_retriever = ContextualCompressionRetriever(
base_compressor=compressor, base_retriever=retriever
)
압축된 문서를 검색하고, 결과를 출력합니다:
# 압축된 문서 검색
compressed_docs = compression_retriever.invoke("Word2Vec 에 대해서 알려줘!")
# 압축된 문서 출력
pretty_print_docs(compressed_docs)
pretty_print_docs(compressed_docs)
함수를 통해 최종적으로 재정렬된 문서들을 출력합니다.아래는 compression_retriever.invoke("Word2Vec 에 대해서 알려줘!")
를 실행한 후 Cohere Reranker가 반환한 상위 3개의 문서에 대한 출력 예시입니다:
Document 1:
Crawling
정의: 크롤링은 자동화된 방식으로 웹 페이지를 방문하여 데이터를 수집하는 과정입니다. 이는 검색 엔진 최적화나 데이터 분석에 자주 사용됩니다.
예시: 구글 검색 엔진이 인터넷 상의 웹사이트를 방문하여 콘텐츠를 수집하고 인덱싱하는 것이 크롤링입니다.
연관키워드: 데이터 수집, 웹 스크래핑, 검색 엔진
Word2Vec
정의: Word2Vec은 단어를 벡터 공간에 매핑
### <span style="color:#1e90ff">실행 결과 예시 (이어서)
```plaintext
정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.
예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.
연관키워드: 자연어 처리, 임베딩, 의미론적 유사성
LLM (Large Language Model)
----------------------------------------------------------------------------------------------------
Document 2:
Token
정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어 처리, 구문 분석
Tokenizer
정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.
예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.
연관키워드: 토큰화, 자연어 처리, 구문 분석
VectorStore
정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.
예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다.
연관키워드: 임베딩, 데이터베이스, 벡터화
SQL
----------------------------------------------------------------------------------------------------
Document 3:
LLM (Large Language Model)
정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이러한 모델은 다양한 자연어 이해 및 생성 작업에 사용됩니다.
예시: OpenAI의 GPT 시리즈는 대표적인 대규모 언어 모델입니다.
연관키워드: 자연어 처리, 딥러닝, 텍스트 생성
FAISS (Facebook AI Similarity Search)
정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.
예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.
연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화
Open Source
Cohere Reranker는 검색 시스템에서 문서의 순위를 재조정하여 사용자가 원하는 정보를 더 정확하게 제공할 수 있도록 돕는 강력한 도구입니다. 특히, 다국어 지원 모델을 통해 다양한 언어에서 높은 성능을 발휘할 수 있습니다.
검색 정확도 향상: 기존 retriever의 결과를 재정렬하여, 더 정확한 순위를 제공함으로써 검색 결과의 품질을 크게 향상시킵니다.
다국어 지원: Cohere의 다양한 다국어 모델을 통해 글로벌 사용자들에게 높은 수준의 검색 성능을 제공합니다.
간단한 통합: Cohere Reranker는 LangChain 프레임워크를 통해 쉽게 통합할 수 있어, 검색 시스템 구축 과정에서 효율성을 높입니다.
Cohere Reranker는 앞으로도 검색 시스템의 정확성을 높이기 위한 중요한 도구로 자리잡을 것입니다. 특히 인공지능과 자연어 처리 기술의 발전과 함께, 더욱 강력하고 효율적인 검색 시스템이 만들어질 것입니다.
Jina Reranker는 문서 압축 및 검색 최적화를 위해 사용되는 강력한 도구입니다. 이 Reranker는 retrieval 과정에서 얻어진 문서들의 순위를 재조정하여, 사용자가 더 관련성 높은 결과를 얻을 수 있도록 돕습니다. 이 문서에서는 Jina Reranker를 사용하여 검색 시스템의 성능을 향상시키는 방법을 설명합니다.
Jina Reranker를 사용하려면, API 키를 발급받아 환경변수로 관리해야 합니다. 이를 위해 dotenv
패키지를 사용하여 API 키를 로드할 수 있습니다:
from dotenv import load_dotenv
# API KEY 정보 로드
load_dotenv()
True
이 코드를 통해 .env 파일에 저장된 API 키를 로드하여, 안전하게 관리할 수 있습니다.
LangSmith를 통해 Jina Reranker의 사용을 추적하고, 검색 성능을 모니터링할 수 있습니다:
# LangSmith 추적을 설정합니다.
# !pip install langchain-teddynote
from langchain_teddynote import logging
# 프로젝트 이름을 입력합니다.
logging.langsmith("Reranker")
이 설정을 통해 프로젝트의 성능을 추적할 수 있습니다.
아래 코드는 문서를 로드하고, retriever를 초기화하는 과정입니다:
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
# 문서 로드
documents = TextLoader("./data/appendix-keywords.txt").load()
# 텍스트 분할기 초기화
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
# 문서 분할
texts = text_splitter.split_documents(documents)
# 검색기 초기화
retriever = FAISS.from_documents(
texts, OpenAIEmbeddings()
).as_retriever(search_kwargs={"k": 10})
문서 로드: TextLoader
를 사용하여 appendix-keywords.txt 파일에서 문서를 로드합니다.
텍스트 분할기 초기화: RecursiveCharacterTextSplitter
를 사용하여 문서를 청크 단위로 분할하며, 500자 크기와 100자 중첩을 적용합니다.
검색기 초기화: FAISS 인덱스를 사용하여 문서를 인덱싱하고, OpenAI Embeddings를 기반으로 검색기를 설정합니다. 이 검색기는 상위 10개의 문서를 반환하도록 설정되었습니다.
설정된 검색기를 사용하여 질의를 수행하고, 결과를 출력합니다:
# 질의문
query = "Word2Vec 에 대해서 설명해줘."
# 문서 검색
docs = retriever.invoke(query)
# 문서 출력
pretty_print_docs(docs)
"Word2Vec 에 대해서 설명해줘."
로 설정합니다.retriever.invoke(query)
를 통해 설정된 질의에 대한 검색을 수행합니다.pretty_print_docs(docs)
함수를 사용하여 검색된 문서를 출력합니다.이제 Jina Reranker를 압축기로 사용하여, 기본 retriever를 ContextualCompressionRetriever로 감싸고, 문서의 순위를 재조정하는 방법을 설명합니다.
JinaRerank 모델을 설정합니다. 여기서는 jina-reranker-v2-base-multilingual 모델을 사용하여, 상위 3개의 문서를 선택하도록 설정합니다:
from langchain.retrievers import ContextualCompressionRetriever
from langchain_community.document_compressors import JinaRerank
# JinaRerank 압축기 초기화
compressor = JinaRerank(model="jina-reranker-v2-base-multilingual", top_n=3)
ContextualCompressionRetriever
를 초기화하여, base_compressor
로 JinaRerank를, base_retriever
로 기존의 retriever를 사용합니다:
# 문서 압축 검색기 초기화
compression_retriever = ContextualCompressionRetriever(
base_compressor=compressor, base_retriever=retriever
)
압축된 문서를 검색하고, 결과를 보기 좋게 출력합니다:
# 관련 문서 검색 및 압축
compressed_docs = compression_retriever.invoke(
"Word2Vec 에 대해서 설명해줘."
)
# 문서 출력 함수
def pretty_print_docs(docs):
print(
f"\n{'-' * 100}\n".join(
[f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]
)
)
# 압축된 문서의 보기 좋게 출력
pretty_print_docs(compressed_docs)
compression_retriever.invoke()
를 통해 재정렬된 문서를 검색합니다.pretty_print_docs(compressed_docs)
함수를 통해 최종적으로 재정렬된 문서들을 출력합니다.아래는 compression_retriever.invoke("Word2Vec 에 대해서 설명해줘.")
를 실행한 후 Jina Reranker가 반환한 상위 3개의 문서에 대한 출력 예시입니다:
Document 1:
Crawling
정의: 크롤링은 자동화된 방식으로 웹 페이지를 방문하여 데이터를 수집하는 과정입니다. 이는 검색 엔진 최적화나 데이터 분석에 자주 사용됩니다.
예시: 구글 검색 엔진이 인터넷 상의 웹사이트를 방문하여 콘텐츠를 수집하고 인덱싱하는 것이 크롤링입니다.
연관키워드: 데이터 수집, 웹 스크래핑, 검색 엔진
Word2Vec
정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.
예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.
연관키워드: 자연어 처리, 임베딩, 의미론적 유사성
LLM (Large Language Model)
----------------------------------------------------------------------------------------------------
Document 2:
Token
정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.
예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.
연관키워드: 토큰화, 자연어 처리, 구문 분석
Tokenizer
정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.
예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.
연관키워드: 토큰화, 자연어 처리, 구문 분석
VectorStore
정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.
예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다.
연관키워드: 임베딩, 데이터베이스, 벡터화
----------------------------------------------------------------------------------------------------
Document 3:
Semantic Search
정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
Embedding
정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝
### <span style="color:#1e90ff">실행 결과 예시
```plaintext
"목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
Embedding
정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝
Jina Reranker는 검색 시스템에서 문서의 순위를 재조정하여, 사용자에게 더 관련성 높은 결과를 제공하는 데 중요한 역할을 합니다. 특히, 다국어 환경에서도 효율적으로 동작하는 Jina Reranker는 다양한 언어의 데이터를 처리하는 데 유용합니다.
검색 정확도 향상: 기존 retriever의 결과를 재정렬하여, 검색 결과의 품질을 크게 향상시킵니다.
다국어 지원: Jina Reranker는 다국어 모델을 사용하여, 다양한 언어 환경에서 높은 성능을 발휘할 수 있습니다.
유연한 통합: Jina Reranker는 LangChain 프레임워크와 통합하여, 간단하고 효율적인 검색 시스템 구축이 가능합니다.
Jina Reranker는 검색 시스템의 정확성을 높이기 위한 중요한 도구로 자리 잡고 있습니다. 앞으로도 인공지능과 자연어 처리 기술의 발전과 함께, 더욱 강력하고 효율적인 검색 시스템을 구현할 수 있을 것입니다.
FlashRank Reranker는 기존 검색 및 retrieval 파이프라인에서 문서의 순위를 빠르고 효율적으로 재조정하기 위해 개발된 초경량 및 초고속 Python 라이브러리입니다. 이 도구는 최신의 SoTA (State-of-the-Art) cross-encoders를 기반으로 하여, 검색 결과의 정확도를 높이는 데 중요한 역할을 합니다.
이 문서에서는 FlashRank Reranker를 사용하여 문서를 압축하고 재정렬하는 방법을 설명합니다.
먼저, FlashRank 라이브러리를 설치합니다. 이를 위해 아래 명령어를 사용합니다:
# 설치
!pip install -qU flashrank
검색된 문서를 보기 좋게 출력하기 위한 함수를 정의합니다:
def pretty_print_docs(docs):
print(
f"\n{'-' * 100}\n".join(
[
f"Document {i+1}:\n\n{d.page_content}\nMetadata: {d.metadata}"
for i, d in enumerate(docs)
]
)
)
이 함수는 검색된 문서들을 Document 1
, Document 2
등의 형식으로 출력하고, 문서의 메타데이터도 함께 표시합니다.
아래 코드는 문서를 로드하고, retriever를 초기화하는 과정입니다:
from langchain_community.document_loaders import TextLoader
from langchain_community.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_openai import OpenAIEmbeddings
# 문서 로드
documents = TextLoader("./data/appendix-keywords.txt").load()
# 텍스트 분할기 초기화
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
# 문서 분할
texts = text_splitter.split_documents(documents)
# 각 텍스트에 고유 ID 추가
for idx, text in enumerate(texts):
text.metadata["id"] = idx
# 검색기 초기화
retriever = FAISS.from_documents(
texts, OpenAIEmbeddings()
).as_retriever(search_kwargs={"k": 10})
문서 로드: TextLoader
를 사용하여 appendix-keywords.txt 파일에서 문서를 로드합니다.
텍스트 분할기 초기화: RecursiveCharacterTextSplitter
를 사용하여 문서를 500자 크기로 분할하며, 100자 중첩을 적용하여 문서의 일관성을 유지합니다.
고유 ID 추가: 각 텍스트에 고유한 ID를 부여하여, 나중에 검색 결과를 쉽게 추적할 수 있습니다.
검색기 초기화: FAISS 인덱스를 사용하여 문서를 인덱싱하고, OpenAI Embeddings를 기반으로 검색기를 설정합니다.
설정된 검색기를 사용하여 질의를 수행하고, 결과를 출력합니다:
# 질의문
query = "Word2Vec 에 대해서 설명해줘."
# 문서 검색
docs = retriever.invoke(query)
# 문서 출력
pretty_print_docs(docs)
"Word2Vec 에 대해서 설명해줘."
로 설정합니다.retriever.invoke(query)
를 통해 설정된 질의에 대한 검색을 수행합니다.pretty_print_docs(docs)
함수를 사용하여 검색된 문서를 출력합니다.이제 FlashRank Reranker를 사용하여 기본 retriever를 ContextualCompressionRetriever로 감싸고, 문서의 순위를 재조정하는 방법을 설명합니다.
FlashRankRerank 모델을 설정합니다. 여기서는 ms-marco-MultiBERT-L-12 모델을 사용합니다:
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import FlashrankRerank
from langchain_openai import ChatOpenAI
# LLM 초기화
llm = ChatOpenAI(temperature=0)
# 문서 압축기 초기화
compressor = FlashrankRerank(model="ms-marco-MultiBERT-L-12")
ContextualCompressionRetriever
를 초기화하여, base_compressor
로 FlashRankRerank를, base_retriever
로 기존의 retriever를 사용합니다:
# 문맥 압축 검색기 초기화
compression_retriever = ContextualCompressionRetriever(
base_compressor=compressor, base_retriever=retriever
)
압축된 문서를 검색하고, 결과를 보기 좋게 출력합니다:
# 압축된 문서 검색
compressed_docs = compression_retriever.invoke(
"Word2Vec 에 대해서 설명해줘."
)
# 문서 ID 출력
print([doc.metadata["id"] for doc in compressed_docs])
# 문서 출력
pretty_print_docs(compressed_docs)
compression_retriever.invoke()
를 통해 재정렬된 문서를 검색합니다. 검색된 문서의 ID도 출력하여, 어떤 문서가 반환되었는지 확인합니다.pretty_print_docs(compressed_docs)
함수를 통해 최종적으로 재정렬된 문서들을 출력합니다.아래는 compression_retriever.invoke("Word2Vec 에 대해서 설명해줘.")
를 실행한 후 FlashRank Reranker가 반환한 상위 3개의 문서에 대한 출력 예시입니다:
Document 1:
Semantic Search
정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.
예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.
연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝
Embedding
정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.
예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.
연관키워드: 자연어 처리, 벡터화, 딥러닝
Token
Metadata: {'source': './data/appendix-keywords.txt', 'id': 0, 'relevance_score': 0.9997491}
----------------------------------------------------------------------------------------------------
Document 2:
HuggingFace
정의: HuggingFace는 자연어 처리를 위한 다양한 사전 훈련된 모델과 도구를 제공하는 라이브러리입니다. 이는 연구자와 개발자들이 쉽게 NLP 작업을 수행할 수 있도록 돕습니다.
예시: HuggingFace의 Transformers 라이브러리를 사용하여 감정 분석, 텍스트 생성 등의 작업을 수행할 수 있습니다.
연관키워드: 자연어 처리, 딥러닝, 라이브러리
Digital Transformation
정의: 디지털 변환은 기술을 활용하여 기업의 서비스, 문화, 운영을 혁신하는 과정입니다. 이는 비즈니스 모델을 개선하고 디지털 기술을 통해 경쟁력을 높이는 데 중점을 둡니다.
예시: 기업이 클라우드 컴퓨팅을 도입하여 데이터 저장과 처리를 혁신하는 것은 디지털 변환의 예입니다.
연관키워드: 혁신, 기술, 비즈니스 모델
Crawling
Metadata: {'source': './data/appendix-keywords.txt', 'id': 4, 'relevance_score': 0.9997148}
----------------------------------------------------------------------------------------------------
Document 3:
DataFrame
정의: DataFrame은 행과 열로 이루어진 테이블 형태의 데이터 구조로, 주로 데이터 분석 및 처리에 사용됩니다
예시: 판다스 라이브러리에서 DataFrame은 다양한 데이터 타입의 열을 가질 수 있으며, 데이터 조작과 분석을 용이하게 합니다.
연관키워드: 데이터 분석, 판다스, 데이터 처리
Attention 메커니즘
정의: Attention 메커니즘은 딥러닝에서 중요한 정보에 더 많은 '주의'를 기울이도록 하는 기법입니다. 이는 주로 시퀀스 데이터(예: 텍스트, 시계열 데이터)에서 사용됩니다.
예시: 번역 모델에서 Attention 메커니즘은 입력 문장의 중요한 부분에 더 집중하여 정확한 번역을 생성합니다.
연관키워드: 딥러닝, 자연어 처리, 시퀀스 모델링
판다스 (Pandas)
Metadata: {'source': './data/appendix-keywords.txt', 'id': 10, 'relevance_score': 0.9997084}
FlashRank Reranker는 검색 시스템에서 문서의 순위를 재조정하여, 사용자에게 더욱 관련성 높은 정보를 제공하는 데 중요한 역할을 합니다. 특히, 이 도구는 State-of-the-Art (SoTA) cross-encoders를 활용하여 빠르고 효율적으로 작동합니다.
FlashRank Reranker는 검색 시스템의 정확성과 효율성을 동시에 향상시킬 수 있는 잠재력이 큽니다. 향후, 다양한 산업 분야에서 검색 및 정보 처리의 핵심 도구로 자리 잡을 가능성이 있습니다.