시리즈

RAG

1.RAG - 2. 분할

Chunking은 RAG의 정보 검색 정확도와 문맥 보존성에 큰 영향을 미칩니다.적절한 분할 전략을 사용하지 않으면, 검색된 정보가 너무 적거나 문맥이 손실될 위험이 있습니다.설명:Chunk를 분할하는 방법 자체가 검색 성능과 생성 결과에 영향을 미칠 수 있음. 고정

2025년 2월 25일

2.RAG - 3. 임베딩

임베딩(Embedding)은 RAG 시스템에서 검색 및 정보 검색 성능에 큰 영향을 미치는 요소입니다.임베딩의 품질이 낮으면 검색 결과가 부정확해지고, 반대로 최적화된 임베딩을 사용하면 검색 정확도와 효율성이 크게 향상됩니다.설명: 어떤 임베딩 모델을 선택하느냐에 따

2025년 2월 25일

3.RAG - 4. 백터DB

벡터 데이터베이스(Vector Database)는 RAG 시스템에서 효율적인 검색과 성능을 좌우하는 중요한 요소입니다.벡터DB의 선택, 인덱싱 방식, 유사도 측정 방식 등에 따라 검색 속도와 정확도가 달라집니다. 설명: 벡터 검색을 지원하는 데이터베이스는 다양한 종

2025년 2월 25일

4.RAG - 성능에 미치는 요인

RAG의 성능을 최적화하기 위해서는 여러 단계에서 세밀한 조정이 필요합니다. 각 단계별로 성능에 영향을 미치는 주요 요인과 설명을 정리했습니다.요인:1) 파일 형식 및 변환 PDF, HTML, Word, TXT 등 다양한 문서 형식이 존재하며, 적절한 변환 및 파싱이

2025년 2월 25일

5.RAG - 5. Retrieval

Retrieval 단계는 벡터DB에서 유사한 문서를 검색하는 과정으로, 검색 정확도와 효율성을 결정하는 핵심 요소입니다.이 단계에서 최적화해야 할 요인들을 살펴보겠습니다.설명: 검색할 문서 개수인 Top-K 값이 성능에 영향을 미침. 값이 너무 작으면 필요한 정보를

2025년 2월 25일

6.PyPDFLoader vs. PyPDFium2Loader

LangChain을 사용하여 PDF 문서를 로드할 때, PyPDFLoader와 PyPDFium2Loader는 가장 많이 사용되는 두 가지 로더입니다. 하지만 이 두 로더는 내부적으로 작동 방식이 다르며, 적절한 선택이 필요합니다.

2025년 2월 25일

7.VectorDB

벡터 데이터베이스(VectorDB)는 벡터 형태의 데이터를 저장하고 빠르게 검색할 수 있도록 설계된 데이터베이스입니다. 특히 자연어 처리(NLP), 이미지 검색, 추천 시스템, RAG(Retrieval-Augmented Generation) 같은 AI 기반 애플리케이션

2025년 2월 27일

RAG

1.RAG - 2. 분할

2.RAG - 3. 임베딩

3.RAG - 4. 백터DB

4.RAG - 성능에 미치는 요인

5.RAG - 5. Retrieval

6.PyPDFLoader vs. PyPDFium2Loader

7.VectorDB

8.VectorDB-meta data

9.rag-prompt 버전

10.RAG 체인 구성 방식: 단일 체인 vs create_stuff_documents_chain + create_retrieval_chain

11.PDF Loader 비교 분석

12.DB 기반 RAG에서 SQL 변환 방법