Chunking은 RAG의 정보 검색 정확도와 문맥 보존성에 큰 영향을 미칩니다.적절한 분할 전략을 사용하지 않으면, 검색된 정보가 너무 적거나 문맥이 손실될 위험이 있습니다.설명:Chunk를 분할하는 방법 자체가 검색 성능과 생성 결과에 영향을 미칠 수 있음. 고정
임베딩(Embedding)은 RAG 시스템에서 검색 및 정보 검색 성능에 큰 영향을 미치는 요소입니다.임베딩의 품질이 낮으면 검색 결과가 부정확해지고, 반대로 최적화된 임베딩을 사용하면 검색 정확도와 효율성이 크게 향상됩니다.설명: 어떤 임베딩 모델을 선택하느냐에 따
벡터 데이터베이스(Vector Database)는 RAG 시스템에서 효율적인 검색과 성능을 좌우하는 중요한 요소입니다.벡터DB의 선택, 인덱싱 방식, 유사도 측정 방식 등에 따라 검색 속도와 정확도가 달라집니다. 설명: 벡터 검색을 지원하는 데이터베이스는 다양한 종
RAG의 성능을 최적화하기 위해서는 여러 단계에서 세밀한 조정이 필요합니다. 각 단계별로 성능에 영향을 미치는 주요 요인과 설명을 정리했습니다.요인:1) 파일 형식 및 변환 PDF, HTML, Word, TXT 등 다양한 문서 형식이 존재하며, 적절한 변환 및 파싱이
Retrieval 단계는 벡터DB에서 유사한 문서를 검색하는 과정으로, 검색 정확도와 효율성을 결정하는 핵심 요소입니다.이 단계에서 최적화해야 할 요인들을 살펴보겠습니다.설명: 검색할 문서 개수인 Top-K 값이 성능에 영향을 미침. 값이 너무 작으면 필요한 정보를
LangChain을 사용하여 PDF 문서를 로드할 때, PyPDFLoader와 PyPDFium2Loader는 가장 많이 사용되는 두 가지 로더입니다. 하지만 이 두 로더는 내부적으로 작동 방식이 다르며, 적절한 선택이 필요합니다.
벡터 데이터베이스(VectorDB)는 벡터 형태의 데이터를 저장하고 빠르게 검색할 수 있도록 설계된 데이터베이스입니다. 특히 자연어 처리(NLP), 이미지 검색, 추천 시스템, RAG(Retrieval-Augmented Generation) 같은 AI 기반 애플리케이션
메타데이터란? 벡터 데이터(예: 문서 청크, 문서 임베딩)에 대한 추가적인 정보(상위 데이터)검색 시 벡터 유사도 매칭 외에도 필터링을 쉽게 할 수 있도록 도와주는 요소보험 관련 데이터에서는 다음과 같은 정보를 저장하면 유용함 📌 특징 status 필드는 sal

https://python.langchain.com/v0.2/docs/introduction/
이 코드는 RunnablePassthrough를 사용하여 질문과 문맥(컨텍스트)을 언어 모델(llm)에 전달하고, 그 후 StrOutputParser를 통해 최종 출력 형식을 문자열로 변환하는 흐름입니다.Retriever: 문서를 검색하는 역할을 합니다. 여기서는 re
PDF 파일을 파싱하고 데이터로 변환할 때, 대표적인 라이브러리 두 가지가 있습니다.빠른 속도: 페이지별 로드 속도 빠름다양한 기능: 텍스트 추출 외에도, PDF 내 이미지 추출, 좌표기반 검색 등 지원페이지별 개별 컨트롤 가능: 필요한 페이지만 선택하여 추출텍스트 위
DB 기반 RAG에서 사용자 질의를 SQL 문으로 변환하는 방법에 대해 설명합니다.이 방법은 LLM을 활용하여, 사용자의 자연어 질의를 SQL 쿼리로 변환하는 방식입니다.DB Schema 정보 저장 테이블 정보, 컬럼 정보, 관계, 데이터 타입 등을 미리 저장해둠.예