
🧠 가볍게 알아보는 LLM과 RAG
🔍 LLM (Large Language Model)이란?
LLM은 수많은 텍스트 데이터를 학습해 언어의 패턴과 의미를 이해하고 생성할 수 있는 인공지능 모델
다양한 자연어 처리(NLP) 작업을 하나의 모델로 수행할 수 있어 범용성과 유연성이 뛰어나다.
✅ LLM의 주요 장점
1. 방대한 지식 보유
- 인터넷 기반의 대규모 데이터를 학습하여 넓고 얕은 배경 지식을 보유
- 특정 도메인에 대해선 Fine-tuning을 통해 깊이 있는 이해까지 가능함.
💡 Fine-tuning
미리 학습된 대규모 모델에 특정 목적에 맞는 데이터를 추가 학습시켜 성능을 향상시키는 방법
2. 문맥 이해 능력
- 단순한 키워드 매칭이 아닌 문장의 흐름과 의미를 이해하여 자연스러운 응답이 가능
3. 자연어 생성 능력
- 문장 생성, 질문 응답, 요약, 번역 등 다양한 태스크 수행 가능
- 단어 하나씩 생성하는 방식으로, 이전 단어들과의 관계를 고려해 문장을 만듦
4. 전이 학습 능력
- 큰 모델 하나를 학습한 뒤, 다양한 작업에 빠르게 적용 가능
- 예: 뉴스 요약 모델 → 이메일 요약, 논문 요약 등 유사 작업에 응용
- 데이터가 적은 분야에도 유용하게 활용 가능
5. 확장성
- 모델 크기, 학습 데이터, 컴퓨팅 자원을 늘리면 성능이 비약적으로 향상됨
- 예: GPT-2 → GPT-3 → GPT-4
- 특정 태스크에 특화된 시스템보다 범용적이고 강력한 솔루션이 될 수 있음
⚠️ LLM의 한계점 (단점)
1. 편향성 문제
- 원인: 학습 데이터에 사회적 편견과 차별이 내재됨
- 현상: 고정관념이 그대로 재생산
- 영향: 차별적 표현, 왜곡된 인식 확산 우려
2. 사실 오류 및 환각(할루시네이션)
- 원인: 확률 기반 생성, 실제 ‘사실’ 자체는 학습하지 않음
- 현상: 존재하지 않는 정보를 그럴듯하게 생성
- 영향: 정보의 신뢰성 저하, 검색/분석 작업에 큰 문제 발생
3. 맥락 이해의 한계
- 원인: 세계 지식이나 인과관계를 이해하지 못함
- 현상: 긴 문장, 복잡한 대화 맥락에서 표면적인 응답만 생성
- 영향: 창의적 대화나 복합적 추론 작업에서 품질 저하
4. 일관성 부족
- 원인: 확률적 생성 과정에 랜덤성이 개입됨
- 현상: 같은 입력에 다른 출력이 나옴
- 영향: 신뢰성 저하, 일관된 결과가 필요한 작업에 부적합
5. 윤리적 문제
- 원인: 생성 통제가 어려움
- 현상: 허위정보, 혐오 발언, 범죄 활용 가능성
- 영향: 법적/사회적 책임 소재가 불명확
💡 그래서 등장한 RAG
RAG는 LLM의 단점 중 ‘사실 오류’와 ‘맥락 이해 부족’을 보완하기 위한 기술이다
외부 지식 베이스를 검색하여, LLM의 생성 능력에 정확한 정보와 출처 기반의 지식을 결합한다
✅ RAG는 LLM의 어떤 문제를 보완할까?
1. 사실 오류 및 환각 감소
- 외부 지식 DB에서 관련 정보를 검색해, 사실 기반 응답 생성
- 출처 명시를 통해 신뢰도 향상
2. 맥락 이해력 향상
- 질문과 관련된 배경 지식과 문맥을 검색해, 더 풍부하고 관련도 높은 답변 생성
- 단순 패턴 매칭이 아니라, 추론 기반 생성 가능
🧩 RAG vs LLM – 무엇이 다른가?
| 항목 | LLM | RAG |
|---|
| 지식 위치 | 모델 내부에 내재됨 | 외부 DB (위키, 문서 등)에서 검색 |
| 지식 업데이트 | 모델 재학습 필요 | 문서만 갱신하면 됨 |
| 응답 방식 | 과거 학습된 통계적 패턴 | 관련 문서 기반 생성 |
| 정확도/최신성 | 낮음, 환각 가능성 ↑ | 최신 정보 반영 쉬움 |
| 요약 | 배운 걸 토대로 말함 | 찾아보고 요약해서 말함 |
📌 예시로 이해하자
Q: 2024년 미국 대통령 선거 결과는?
- 🧠 LLM: 2023까지의 정보 기반으로 엉뚱한 결과 생성 가능성 있음
- 🔍 RAG: 뉴스나 위키에서 최신 결과 검색 후 정확한 요약 가능하다
🔗 참고 자료
오 RAG까지..