RAG 알아보기 전 LLM 알아보기

최주희·2025년 4월 2일

🧠 가볍게 알아보는 LLM과 RAG

🔍 LLM (Large Language Model)이란?

LLM은 수많은 텍스트 데이터를 학습해 언어의 패턴과 의미를 이해하고 생성할 수 있는 인공지능 모델
다양한 자연어 처리(NLP) 작업을 하나의 모델로 수행할 수 있어 범용성과 유연성이 뛰어나다.

✅ LLM의 주요 장점

1. 방대한 지식 보유

인터넷 기반의 대규모 데이터를 학습하여 넓고 얕은 배경 지식을 보유
특정 도메인에 대해선 Fine-tuning을 통해 깊이 있는 이해까지 가능함.

💡 Fine-tuning
미리 학습된 대규모 모델에 특정 목적에 맞는 데이터를 추가 학습시켜 성능을 향상시키는 방법

2. 문맥 이해 능력

단순한 키워드 매칭이 아닌 문장의 흐름과 의미를 이해하여 자연스러운 응답이 가능

3. 자연어 생성 능력

문장 생성, 질문 응답, 요약, 번역 등 다양한 태스크 수행 가능
단어 하나씩 생성하는 방식으로, 이전 단어들과의 관계를 고려해 문장을 만듦

4. 전이 학습 능력

큰 모델 하나를 학습한 뒤, 다양한 작업에 빠르게 적용 가능
예: 뉴스 요약 모델 → 이메일 요약, 논문 요약 등 유사 작업에 응용
데이터가 적은 분야에도 유용하게 활용 가능

5. 확장성

모델 크기, 학습 데이터, 컴퓨팅 자원을 늘리면 성능이 비약적으로 향상됨
예: GPT-2 → GPT-3 → GPT-4
특정 태스크에 특화된 시스템보다 범용적이고 강력한 솔루션이 될 수 있음

⚠️ LLM의 한계점 (단점)

1. 편향성 문제

원인: 학습 데이터에 사회적 편견과 차별이 내재됨
현상: 고정관념이 그대로 재생산
영향: 차별적 표현, 왜곡된 인식 확산 우려

2. 사실 오류 및 환각(할루시네이션)

원인: 확률 기반 생성, 실제 ‘사실’ 자체는 학습하지 않음
현상: 존재하지 않는 정보를 그럴듯하게 생성
영향: 정보의 신뢰성 저하, 검색/분석 작업에 큰 문제 발생

3. 맥락 이해의 한계

원인: 세계 지식이나 인과관계를 이해하지 못함
현상: 긴 문장, 복잡한 대화 맥락에서 표면적인 응답만 생성
영향: 창의적 대화나 복합적 추론 작업에서 품질 저하

4. 일관성 부족

원인: 확률적 생성 과정에 랜덤성이 개입됨
현상: 같은 입력에 다른 출력이 나옴
영향: 신뢰성 저하, 일관된 결과가 필요한 작업에 부적합

5. 윤리적 문제

원인: 생성 통제가 어려움
현상: 허위정보, 혐오 발언, 범죄 활용 가능성
영향: 법적/사회적 책임 소재가 불명확

💡 그래서 등장한 RAG

RAG는 LLM의 단점 중 ‘사실 오류’와 ‘맥락 이해 부족’을 보완하기 위한 기술이다
외부 지식 베이스를 검색하여, LLM의 생성 능력에 정확한 정보와 출처 기반의 지식을 결합한다

✅ RAG는 LLM의 어떤 문제를 보완할까?

1. 사실 오류 및 환각 감소

외부 지식 DB에서 관련 정보를 검색해, 사실 기반 응답 생성
출처 명시를 통해 신뢰도 향상

2. 맥락 이해력 향상

질문과 관련된 배경 지식과 문맥을 검색해, 더 풍부하고 관련도 높은 답변 생성
단순 패턴 매칭이 아니라, 추론 기반 생성 가능

🧩 RAG vs LLM – 무엇이 다른가?

항목	LLM	RAG
지식 위치	모델 내부에 내재됨	외부 DB (위키, 문서 등)에서 검색
지식 업데이트	모델 재학습 필요	문서만 갱신하면 됨
응답 방식	과거 학습된 통계적 패턴	관련 문서 기반 생성
정확도/최신성	낮음, 환각 가능성 ↑	최신 정보 반영 쉬움
요약	배운 걸 토대로 말함	찾아보고 요약해서 말함

📌 예시로 이해하자

Q: 2024년 미국 대통령 선거 결과는?

🧠 LLM: 2023까지의 정보 기반으로 엉뚱한 결과 생성 가능성 있음
🔍 RAG: 뉴스나 위키에서 최신 결과 검색 후 정확한 요약 가능하다

🔗 참고 자료

모두의연구소 - Retrieval-Augmented Generation 블로그

최주희

큰 목표보단 꾸준한 습관 만들기

이전 포스트

React ErrorBoundary가 잡지 못하는 에러

다음 포스트

LLM의 한계를 보완한 RAG 과정

2개의 댓글

이경택

2025년 4월 3일

오 RAG까지..

1개의 답글