LLM Day 19 - RAG와 데이터

Soyee Sung·2025년 2월 28일
0

LLM

목록 보기
24/34

RAG(Retrieval-Augmented Generation)는 대규모 언어 모델(LLM)의 한계를 보완하기 위해 외부 데이터 소스를 활용하는 기술입니다. 이를 통해 모델이 최신 정보나 특정 도메인 지식을 반영하여 더 정확하고 관련성 높은 응답을 생성할 수 있습니다.

LLM은 방대한 데이터로 사전 학습되지만, 학습 시점 이후의 새로운 정보나 특정 분야의 세부 사항을 포함하지 못할 수 있습니다. RAG는 이러한 한계를 극복하기 위해 외부 데이터베이스나 지식 베이스에서 관련 정보를 검색하여 LLM의 입력으로 제공함으로써, 모델이 최신 정보와 특정 도메인 지식을 반영한 응답을 생성하도록 합니다.

이러한 접근 방식은 모델의 정확성을 높이고, 부정확한 정보나 환각 현상(hallucination)을 줄이는 데 도움이 됩니다. 또한, RAG는 모델을 재학습하거나 미세 조정하지 않고도 외부 데이터를 활용하여 사용자 맞춤형 응답을 제공할 수 있어 비용과 시간을 절감할 수 있습니다.

따라서, RAG와 인공지능 학습용 데이터는 상호 보완적인 관계에 있으며, RAG는 외부 데이터를 활용하여 LLM의 한계를 보완하고 더 정확하고 풍부한 정보를 제공하는 데 기여합니다.

1. 구조화된 데이터 (Structured Data)

데이터베이스(DB) 테이블 (MySQL, PostgreSQL, MongoDB 등)
CSV, Excel 파일
JSON, XML 같은 형식의 데이터
👉 예시: 제품 목록, 고객 정보, 의료 기기 테스트 결과 등의 데이터를 RAG에서 활용 가능

2. 비구조화된 데이터 (Unstructured Data)

텍스트 문서 (PDF, Word, Markdown, TXT)
논문, 기사, 연구 보고서
위키, 블로그, 뉴스 사이트 등
👉 예시: 의료 장비 설명서, 연구 논문, 제품 사양 문서

3. 반구조화된 데이터 (Semi-Structured Data)

HTML, Markdown (웹페이지에서 크롤링한 데이터)
로그 파일, 시스템 로그, JSON 응답 데이터
👉 예시: 의료기기 소프트웨어 로그, API 응답 데이터

4. 이미지 및 영상 데이터

OCR(Optical Character Recognition)을 활용해 이미지 속 텍스트 검색 가능
DICOM(의료영상) 데이터를 메타데이터와 함께 검색 가능
👉 예시: 초음파 기기의 DICOM 데이터에서 환자 정보 및 메타데이터를 검색하여 RAG 활용

5. 도메인별 특화 데이터

사전 구축된 지식 그래프 (Knowledge Graph)
특정 산업(의료, 금융, 법률 등)의 맞춤 데이터셋
대규모 논문 DB (PubMed, ArXiv 등)
👉 예시: 초음파 의료 장비 관련 논문 DB를 활용하여 RAG 기반 QA 시스템 개발

6. 실시간 데이터 (Streaming Data)

API를 통해 실시간으로 검색
최신 뉴스, 트위터, 논문 업데이트 반영 가능
👉 예시: 의료기기 관련 최신 규제 변경 사항을 RAG 시스템에서 반영

0개의 댓글