Gemini, Perplexity, 그리고 RAG – 생성형 AI의 진화

Bean·2025년 7월 23일

AI검색 AI생성 AI챗봇 GeminiFlash LLM VertexAI generativeAI rag 멀티모달RAG 임베딩 정보검색강화 퍼플렉시티

인공지능

목록 보기

93/134

외부 정보를 검색하고 생성까지? 최신 AI 트렌드, RAG 완전 정복

최근 생성형 AI(LLM)의 정확성과 신뢰성을 높이기 위한 핵심 기술로 RAG(Retrieval-Augmented Generation)가 주목받고 있습니다. 단순히 모델이 알고 있는 내용만을 바탕으로 답변하는 것이 아니라, 외부 지식을 실시간 검색하여 그 내용을 반영해 답변을 생성하는 방식입니다.

Google의 Gemini 2.5 Flash, Perplexity AI 등 다양한 최신 서비스들이 RAG 방식을 지원하고 활용 중이며, 특히 Google의 Vertex AI RAG Engine은 이를 멀티모달 환경까지 확장해 텍스트, 음성, 이미지 기반 검색도 가능하게 만들고 있습니다.

RAG란 무엇인가?

RAG(Retrieval-Augmented Generation)는 대형 언어 모델이 외부 정보를 검색하고, 이를 기반으로 답변을 생성하도록 도와주는 프레임워크입니다.

즉, LLM이 단순히 훈련된 데이터만이 아니라, 외부에서 가져온 실시간 정보를 함께 사용해 더 정확하고 근거 있는 답변을 생성하게 하는 기술입니다.

왜 RAG가 필요한가?

한계점	기존 LLM
🕒 최신 정보 없음	2023년 이후 데이터 모름
🤯 할루시네이션	사실처럼 보이지만 잘못된 정보 생성
📄 근거 부족	“왜 그렇게 생각하니?”에 답하지 못함
🔬 도메인 지식 부족	의료, 법률, 제조 같은 전문 분야엔 한계

RAG는 이 모든 문제에 대한 현실적인 해결책입니다.

RAG의 작동 방식

RAG는 크게 두 단계로 나뉩니다.

1. 검색(Retrieval)

사용자의 질문에 대해 외부 지식 소스(웹, 문서, DB 등)에서 관련 텍스트 조각을 검색합니다.
질문과 문서의 의미적 유사도를 비교하기 위해 임베딩(embedding) 기술을 활용합니다.
벡터 DB(Faiss, Pinecone 등)를 통해 고속 검색이 가능해집니다.

2. 생성(Generation)

검색된 정보와 함께 질문을 LLM에 입력합니다.
LLM은 정보를 이해하고, 정리하고, 맥락에 맞게 답변을 창의적으로 생성합니다.

예:
질문: “2028년 파리 올림픽 축구 금메달은 어느 나라가 땄어?”
→ [검색 결과: “2028년 올림픽은 아직 열리지 않았다.”]
→ 답변: “2028년 올림픽은 아직 개최되지 않아, 금메달 수상국이 정해지지 않았습니다.”

Gemini Flash의 RAG 활용

Google의 Gemini Flash (Gemini Live API)는 Vertex AI RAG Engine과 연동되어 다음과 같은 기능을 제공합니다.

🔗 외부 문서 및 세션 내 과거 대화 내용 벡터화 및 검색
🧠 RAG corpus 직접 생성 및 관리 (Memory 기능처럼 사용 가능)
🖼️ 멀티모달 검색 지원 (텍스트, 이미지, 음성 기반)
🧰 도구로 지정하여 RAG 기반 답변을 강화 가능

단, 퍼플렉시티처럼 자동으로 검색 대상이 연결된 형태는 아니며,
사용자가 직접 RAG corpus를 설계하고 관리해야 합니다.

RAG의 장점 요약

✅ 최신 정보 활용: Knowledge cut-off 극복

🧠 환각(hallucination) 감소: 외부 사실 기반 생성

📎 출처 제시 가능: 답변의 신뢰도 향상

🔄 모델 재학습 불필요: 문서만 바꿔도 최신화

🏢 기업용 AI 최적화: 사내 문서 기반 챗봇 구축 용이

RAG의 한계와 고려사항

항목	설명
🔍 검색 품질	검색된 문서가 부정확하면 생성도 오류 가능
🧩 정보 통합	너무 많은 정보는 LLM이 요약하기 어려움
🔗 추론 한계	단순 요약이 아닌 깊은 통합 추론은 여전히 도전적
💸 비용	벡터 DB, 인프라 유지 비용과 기술적 복잡성 존재