LLM DAY 6
Retrieval-Augmented Generation (RAG) 시스템에서 Test Set을 설계할 때, 단순히 문서를 청크하고 벡터화하는 것만으로는 충분하지 않다.
어떤 유형의 데이터로 어떤 목표 수준의 시스템을 구축할 것인지에 따라, 적절한 청크 전략(chunking strategy) 및 검색 전략(retrieval strategy)을 고려해야 한다.
특히, Test Set의 청크 방식은 RAG 시스템의 성능을 검증하는 데 중요한 요소로 작용한다. 청크의 크기와 구조는 문서의 맥락 유지, 검색 성능, 정답 포함률(Recall), 응답 생성 품질 등에 직접적인 영향을 미치기 때문이다. 따라서, Test Set 구축 시에는 다음과 같은 요소를 종합적으로 고려해야 한다.
이러한 요소를 반영한 Test Set 청크 설계는 RAG 시스템의 평가 신뢰도를 높이고, 최적의 검색 및 응답 생성을 지원하는 핵심 요인이 된다.
큰 내용을 작은 덩어리로 나누는 것! 더 쉽게 이해하고 처리하기 위해 필요 🚀
세 가지 텍스트 분할기를 사용하여 청크를 생성
💡 활용
RecursiveCharacterTextSplitter → 일반적인 검색 시스템 (RAG)
CharacterTextSplitter → 문장 기반 요약 모델
SemanticChunker → 의미 기반 검색 최적화