쿼리 대신 가상의 문서로 임베딩을 검색하는 HyDE Retrieval

jihyelee·2024년 8월 1일

1

retrieval-augmented-generation

목록 보기

11/17

HyDE (Hypothetical Document Embedding)

논문 소개

Precise Zero-Shot Dense Retrieval without Relevance Labels (paper link)
쿼리가 주어지면, 언어모델을 활용해 가상의 문서를 생성, 임베딩
가상의 문서 임베딩과 실제 문서 임베딩 사이의 벡터 유사성을 기반으로 문서를 검색

Langchain 코드 예시

https://github.com/langchain-ai/rag-from-scratch/blob/main/rag_from_scratch_5_to_9.ipynb (HyDE 간단 사용 가이드)
https://github.com/langchain-ai/langchain/blob/master/cookbook/hypothetical_document_embeddings.ipynb (HyDE 간단 사용 가이드, 위의 것과 구현 방식이 다름)
- 해당 링크에서는 HypotheticalDocumentEmbedder를 사용하는데, 원리는 동일 (참고 github 코드 링크)

한국어 성능 테스트 시 느낀 점

HyDE는 프롬프트를 활용해 LLM으로 가상의 문서를 생성하는데, 오히려 hallucination이 발생해서인지 검색 성능이 떨어짐
문서 생성 프롬프트를 바꿔가면서 테스트해보는 것도 필요하겠지만, 모든 경우의 hallucination을 줄이기에는 한계가 있을 것으로 생각

Graduate student at Seoul National University, majoring in Artificial Intelligence (NLP). Currently AI Researcher and Engineer at LG CNS AI Lab

이전 포스트

모델의 컨텍스트 길이 한계를 극복하는 Prompt Compression (LLMLingua)

다음 포스트

Corrective RAG (CRAG) 논문 정리 및 Langchain 구현코드

0개의 댓글

관련 채용 정보