문서를...
Load > Split > Embed > Store
Load : word, pdf, excel, csv, text... (문서를 가져옴)
Split : character, recursive, semantic, token (문서를 조각으로 쪼갬)
embedidng : huggingface, openai ... (스플릿된 조각들을 수치화 함)
store : vector db- faiss, milvus, chroma, pinecon... (수치화 정보를 저장)
검색 (Retriever) : 검색 내용(문장)을 임배딩 하여 수치화 한 후 백터 스토어의 내용과 유사도 검색을 함
-> 검색 문장에 대한 임배딩이 필요함
질문 -> 검색 -> 프롬프트 -> LLM -> 답변
질문을 하면 retriever가 임배딩한 질문과 백터 디비를 유사도 검색하여 K개의 유사도 높은 단락을 가져와 프롬프트에 넣어서 LLM에 검색하여 답변을 얻어냄
검색기 - sparse retriever (키워드 위주 검색), dense retriever (문맥 위주의 검색)