LLM 입문 로드맵

허허맨·2025년 7월 31일

LLM rag

LLM

목록 보기

1/12

🚀 LLM 입문 로드맵 — RAG까지 가는 길

1. 들어가며 — LLM이란?

LLM(Large Language Model)은 수십억~수천억 개의 파라미터를 가진 초대형 언어모델을 말합니다.
ChatGPT, Claude, Gemini 등 대표적인 모델들이 모두 LLM에 속합니다.

LLM은 단순한 텍스트 생성 도구를 넘어:

언어 이해 → 질의응답, 요약, 번역
언어 생성 → 글쓰기, 대화, 코드 생성
도메인 특화 지식 응용 → 의학, 법률, 금융 전문 챗봇
까지 폭넓게 활용됩니다.

2. 목표 — 우리는 어디까지 갈 것인가?

이번 로드맵의 최종 목표는 RAG (Retrieval Augmented Generation) 구현입니다.
즉, LLM에 외부 데이터 검색 능력을 부여해 도메인 특화 챗봇을 만드는 것입니다.

3. LLM 공부 순서

3.1 이론 중심

Transformer — Self-Attention, Multi-Head Attention 이해
BERT — Encoder 기반, Masked Language Model(MLM)
GPT — Decoder 기반, Autoregressive LM
BART / T5 — Encoder-Decoder 구조, 생성·요약 태스크
PEFT — LoRA, Prefix Tuning 등 파라미터 효율적 파인튜닝 기법
최신 LLM — LLaMA, Mistral 등 오픈소스 모델

3.2 실무 중심

작은 모델로 시작 → BERT / T5 파인튜닝으로 개념 습득
태스크별 파인튜닝 → 분류, 질의응답, 요약 등 실습
PEFT 적용 → LoRA로 경량 파인튜닝 경험
LLM 활용 → LLaMA, Mistral 등 오픈소스 LLM 사용
프롬프트 엔지니어링 → 최적 질문·응답 설계
RAG 구현 → 검색 + 생성 결합형 챗봇 제작

4. 실무에서 자주 쓰는 라이브러리

구분	라이브러리	용도
모델/파인튜닝	`transformers`	사전학습 모델 로드·추론·파인튜닝
	`peft`	LoRA 등 경량 파인튜닝
	`trl`	RLHF 기반 훈련
데이터	`datasets`	공개 데이터셋 로드·전처리
검색/임베딩	`sentence-transformers`	문장 임베딩 생성
	`faiss`	벡터 검색 엔진
RAG 구현	`langchain`	검색+생성 파이프라인 구축
	`llama-index`	문서 인덱싱·검색 최적화
서빙	`gradio`, `streamlit`	웹 데모 UI 제작

5. RAG까지의 로드맵

1단계 — NLP/LLM 기본기

Transformer 구조 이해
BERT·GPT·T5의 동작 방식 학습
Hugging Face transformers 사용법 익히기

2단계 — 파인튜닝

텍스트 분류, 질의응답 등 태스크별 실습
peft(LoRA)로 경량 파인튜닝 진행

3단계 — 검색 기술

sentence-transformers로 문장 임베딩
faiss로 벡터 검색 구현

4단계 — 프롬프트 엔지니어링

시스템·사용자 프롬프트 설계
Few-shot / Zero-shot 프롬프트 실습

5단계 — RAG 구현

LangChain·LlamaIndex로 검색 + 생성 결합
사내 문서·논문·FAQ 기반 도메인 특화 챗봇 제작
Streamlit/Gradio로 배포

6. 마무리

RAG를 구현하려면 단순히 LLM을 “쓰는 법”이 아니라
모델·검색·프롬프트 설계까지 모두 이해해야 합니다.

📌 추천 학습 흐름

작은 모델 실습 → 경량 파인튜닝 → 검색·임베딩 → 프롬프트 엔지니어링 → RAG 완성

허허맨

사람은 망각의 동물입니다. 때로는 기록으로 과거의 나를 데려옵니다.

다음 포스트