RAG란 무엇인가?
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식으로 대규모 언어 모델(LLM)을 향상시키는 생성형 AI 디자인 기술입니다. RAG는 LLM의 기본 지식을 확장하여 최신 데이터, 독점 정보, 특정 도메인 지식을 포함할 수 있게 해주는 강력한 방법론입니다.
RAG의 주요 장점은 다음과 같습니다:
- 독점 지식 통합: 기업 내부 문서, 데이터베이스, 지식 저장소를 LLM과 연결
- 최신 정보 제공: 모델 학습 이후 업데이트된 정보를 실시간으로 제공
- 출처 인용 가능: 정보의 출처를 추적하고 인용하여 신뢰성 향상
- 보안과 액세스 제어: 사용자 권한에 따라 정보 접근을 관리

RAG의 기본 프로세스는 세 단계로 구성됩니다:
- 검색(Retrieval): 사용자 질의와 관련된 정보를 외부 데이터 소스에서 검색
- 증강(Augmentation): 검색된 정보를 사용자 질의와 함께 프롬프트로 구성
- 생성(Generation): 증강된 프롬프트를 LLM에 전달하여 풍부한 맥락을 가진 응답 생성
데이터브릭스 RAG의 특징과 이점
데이터브릭스는 RAG 애플리케이션을 구축하기 위한 통합 플랫폼과 도구 세트를 제공합니다. 기업이 프로덕션 레벨의 RAG 애플리케이션을 쉽게 개발, 배포, 관리할 수 있도록 다음과 같은 주요 구성 요소를 제공합니다:
- 벡터 검색(Vector Search): 레이크하우스의 기존 테이블에 시맨틱 검색을 강화하는 서버리스 벡터 데이터베이스
- 온라인 피처 및 펑션 서빙: RAG 앱에 구조화된 컨텍스트를 제공
- 파운데이션 모델 API: 다양한 LLM 모델을 일관된 인터페이스로 사용 가능
- 품질 모니터링: RAG 앱의 프로덕션 성능을 관찰할 수 있는 유연한 인터페이스
- LLM 개발 도구: 다양한 모델을 비교하고 평가할 수 있는 환경

데이터브릭스 RAG 플랫폼의 주요 이점:
- 일체형 솔루션: 데이터 처리, 벡터 저장, 모델 서빙, 모니터링까지 하나의 플랫폼에서 관리
- 유연한 통합: 다양한 데이터 소스와 모델을 쉽게 연결
- 보안 및 거버넌스: Unity Catalog를 통한 데이터 계보 추적 및 액세스 제어
- 확장성: 기업 규모의 데이터와 사용자 수요에 맞게 자동 확장
- 비용 효율성: 토큰당 지불 방식의 모델 서빙 옵션
데이터브릭스 RAG 워크플로우
데이터브릭스에서 RAG 애플리케이션을 구축하는 워크플로우는 다음과 같습니다:
1. 데이터 파이프라인 구축

- 데이터 수집: 다양한 소스(PDF, 문서, 데이터베이스 등)에서 데이터 수집
- 문서 처리:
- 원시 문서 구문 분석: 데이터를 사용 가능한 형식으로 변환
- 메타데이터 추출: 문서 제목, URL 등 추출
- 청킹(Chunking): 데이터를 적절한 크기로 분할
- 임베딩 생성: 청크를 벡터로 변환하여 의미적 검색 가능하게 함
- 벡터 저장: 임베딩과 원본 텍스트를 저장하고 인덱싱
2. RAG 에이전트 개발
- 쿼리 전처리: 사용자 질의를 벡터 데이터베이스 검색에 적합하게 가공
- 쿼리 벡터화: 질의를 동일한 임베딩 모델로 벡터화
- 검색: 벡터 유사도 기반으로 관련 컨텍스트 검색
- 프롬프트 증강: 검색된 정보와 사용자 질의를 결합하여 프롬프트 구성
- LLM 생성: 증강된 프롬프트로 응답 생성
- 후처리: 응답을 정제하고 필요시 추가 비즈니스 로직 적용
3. 배포 및 모니터링
- 모델 서빙을 통한 RAG 애플리케이션 배포
- 토큰 스트리밍과 요청/응답 로깅 구현
- 품질 모니터링 및 지속적인 개선
데이터브릭스 Vector Search 활용하기
데이터브릭스 Vector Search는 RAG 애플리케이션의 핵심 구성 요소로, 의미적 검색을 손쉽게 구현할 수 있게 해줍니다.

Vector Search의 주요 특징:
- 델타 테이블과의 통합: 벡터 데이터를 델타 테이블에 저장하고 자동 동기화
- 다양한 임베딩 모델 지원: 오픈 소스 및 상용 임베딩 모델 지원
- 효율적인 유사도 검색: 최적화된 인덱싱으로 빠른 검색 속도 제공
- 자동 스케일링: 데이터 크기와 쿼리 부하에 따라 자동 확장
- 보안 및 거버넌스: Unity Catalog와 통합되어 데이터 접근 제어
Vector Search 구현 예시:
Copy
from databricks.vector_search.client import VectorSearchClient
import pandas as pd
vsc = VectorSearchClient()
df = spark.table("my_documents").toPandas()
embeddings = model.encode(df["text"].tolist())
df["embedding"] = embeddings.tolist()
spark.createDataFrame(df).write.saveAsTable("my_documents_with_embeddings")
vsc.create_index(
index_name="my_vector_index",
source_table_name="my_documents_with_embeddings",
primary_key="id",
embedding_dimension=1536,
embedding_vector_column="embedding"
)
query_text = "데이터브릭스 벡터 검색의 장점은?"
query_embedding = model.encode([query_text])[0].tolist()
results = vsc.query(
index_name="my_vector_index",
query_vector=query_embedding,
columns=["id", "text"],
num_results=5
)
RAG 애플리케이션 품질 향상을 위한 핵심 전략
프로덕션 수준의 RAG 애플리케이션을 구축하기 위한 전략은 다음과 같습니다:
1. 최적의 청킹 전략 선택

- 문서 특성에 맞는 청킹 크기 선택 (너무 크면 관련성 낮아지고, 너무 작으면 컨텍스트 부족)
- 의미적 청킹: 단순히 크기로 나누지 않고 의미 단위로 분할
- 오버랩 청킹: 청크 간 일부 내용을 중복시켜 컨텍스트 연결성 유지
2. 검색 결과 품질 향상
- 하이브리드 검색: 벡터 검색과 키워드 검색 결합
- 재순위화(Re-ranking): 1차 검색 결과를 더 정교한 모델로 재평가
- 다양성 강화: 유사하지만 중복되지 않는 다양한 컨텍스트 제공
3. 프롬프트 엔지니어링 최적화
- 명확한 지시사항 포함
- 검색된 컨텍스트와 질의를 구조화된 형태로 제공
- 응답 형식 템플릿 제공
4. 피드백 루프 구현
- 사용자 피드백 수집 및 분석
- 응답 품질 자동 평가
- 지속적인 모델 및 검색 개선
프로덕션 환경에서의 RAG 모니터링과 평가

데이터브릭스의 Lakehouse Monitoring은 RAG 애플리케이션을 위한 완전 관리형 품질 모니터링 솔루션을 제공합니다:
모니터링 지표
- 정확성: 응답이 검색된 컨텍스트와 일치하는지 평가
- 관련성: 검색된 컨텍스트가 질의와 관련 있는지 평가
- 완전성: 응답이 질의의 모든 측면을 다루는지 평가
- 신뢰성: 환각(hallucination) 발생 여부 감지
- 응답 시간: 검색 및 생성 단계별 지연 시간 측정
- 사용자 만족도: 사용자 피드백 지표 수집
평가 방법
- 자동화된 평가: 참조 응답과의 비교를 통한 자동 평가
- 인간 평가: 전문가 검토를 통한 품질 평가
- A/B 테스트: 다양한 모델과 구성의 성능 비교
실제 구현 사례 및 결론

코닝(Corning)의 특허 검색 시스템
코닝은 데이터브릭스를 사용하여 미국 특허청 데이터의 2,500만 문서를 색인화하는 AI 연구 도우미를 구축했습니다. Vector Search를 활용해 검색 속도, 응답 품질, 정확성을 크게 향상시켰습니다.
FordDirect의 딜러 대시보드 챗봇
FordDirect는 딜러들이 실적, 재고, 트렌드와 고객 참여 지표를 평가할 수 있는 통합 챗봇을 데이터브릭스 Vector Search로 구축했습니다. 소스 데이터가 업데이트되면 실시간으로 벡터 인덱스에 반영되는 장점을 활용했습니다.
결론
데이터브릭스의 RAG 도구 세트는 기업이 고품질의 생성형 AI 애플리케이션을 쉽게 구축할 수 있도록 지원합니다. 데이터 준비부터 배포, 모니터링까지 전체 워크플로우를 통합 플랫폼에서 관리할 수 있어 개발 효율성을 높이고 프로덕션 레벨의 품질을 달성할 수 있습니다.
특히 Vector Search와 같은 도구는 RAG의 핵심인 검색 단계의 품질을 크게 향상시켜 정확하고 신뢰할 수 있는 AI 응답을 생성하는 데 기여합니다. 데이터브릭스의 통합 솔루션을 활용하면 기업은 자체 데이터로 LLM을 강화하고 비즈니스 가치를 창출하는 맞춤형 AI 시스템을 효과적으로 구축할 수 있습니다.
추가 리소스