loader = UnstructuredPDFLoader(pdf_path, mode="elements", strategy="hi_res")
model="elements"
strategy="hi_res"
고정밀(high-resolution)파이프라인을 사용
내부적으로 unstructured라이브러리의 레이아웃감지(딥러닝/컴퓨터비전) + OCR(스캔된 PDF,이미지)을 활용하여 제목/본문/표/리스트 등 블록 수준 구조를 인식.
장점 : 표/리스트/섹션 헤더처럼 문서 구조를 더 정확히 파악
단점 : 느림, 메모리/의존성 요구 높음.
결과적으로 정보 검색(rag)이나 질의응답에서 "문단/표/리스트"등 의미 단위로 청크가 나뉘어 성능이 좋아지는 경우가 많음.
strategy="fast"
: fast: 텍스트 추출 위주(레이아웃 인식은 약함), 빠름
ocr_only
: 무조건 OCR(스캔 위주 문서에 유용, 일반 PDF엔 불리)
documents = loader.load()