LLM 입문 로드맵

허허맨·2025년 7월 31일
0

LLM

목록 보기
1/12
post-thumbnail

🚀 LLM 입문 로드맵 — RAG까지 가는 길

1. 들어가며 — LLM이란?

LLM(Large Language Model)은 수십억~수천억 개의 파라미터를 가진 초대형 언어모델을 말합니다.
ChatGPT, Claude, Gemini 등 대표적인 모델들이 모두 LLM에 속합니다.

LLM은 단순한 텍스트 생성 도구를 넘어:

  • 언어 이해 → 질의응답, 요약, 번역
  • 언어 생성 → 글쓰기, 대화, 코드 생성
  • 도메인 특화 지식 응용 → 의학, 법률, 금융 전문 챗봇
    까지 폭넓게 활용됩니다.

2. 목표 — 우리는 어디까지 갈 것인가?

이번 로드맵의 최종 목표는 RAG (Retrieval Augmented Generation) 구현입니다.
즉, LLM에 외부 데이터 검색 능력을 부여해 도메인 특화 챗봇을 만드는 것입니다.


3. LLM 공부 순서

3.1 이론 중심

  1. Transformer — Self-Attention, Multi-Head Attention 이해
  2. BERT — Encoder 기반, Masked Language Model(MLM)
  3. GPT — Decoder 기반, Autoregressive LM
  4. BART / T5 — Encoder-Decoder 구조, 생성·요약 태스크
  5. PEFT — LoRA, Prefix Tuning 등 파라미터 효율적 파인튜닝 기법
  6. 최신 LLM — LLaMA, Mistral 등 오픈소스 모델

3.2 실무 중심

  1. 작은 모델로 시작 → BERT / T5 파인튜닝으로 개념 습득
  2. 태스크별 파인튜닝 → 분류, 질의응답, 요약 등 실습
  3. PEFT 적용 → LoRA로 경량 파인튜닝 경험
  4. LLM 활용 → LLaMA, Mistral 등 오픈소스 LLM 사용
  5. 프롬프트 엔지니어링 → 최적 질문·응답 설계
  6. RAG 구현 → 검색 + 생성 결합형 챗봇 제작

4. 실무에서 자주 쓰는 라이브러리

구분라이브러리용도
모델/파인튜닝transformers사전학습 모델 로드·추론·파인튜닝
peftLoRA 등 경량 파인튜닝
trlRLHF 기반 훈련
데이터datasets공개 데이터셋 로드·전처리
검색/임베딩sentence-transformers문장 임베딩 생성
faiss벡터 검색 엔진
RAG 구현langchain검색+생성 파이프라인 구축
llama-index문서 인덱싱·검색 최적화
서빙gradio, streamlit웹 데모 UI 제작

5. RAG까지의 로드맵

1단계 — NLP/LLM 기본기

  • Transformer 구조 이해
  • BERT·GPT·T5의 동작 방식 학습
  • Hugging Face transformers 사용법 익히기

2단계 — 파인튜닝

  • 텍스트 분류, 질의응답 등 태스크별 실습
  • peft(LoRA)로 경량 파인튜닝 진행

3단계 — 검색 기술

  • sentence-transformers로 문장 임베딩
  • faiss로 벡터 검색 구현

4단계 — 프롬프트 엔지니어링

  • 시스템·사용자 프롬프트 설계
  • Few-shot / Zero-shot 프롬프트 실습

5단계 — RAG 구현

  • LangChain·LlamaIndex로 검색 + 생성 결합
  • 사내 문서·논문·FAQ 기반 도메인 특화 챗봇 제작
  • Streamlit/Gradio로 배포

6. 마무리

RAG를 구현하려면 단순히 LLM을 “쓰는 법”이 아니라
모델·검색·프롬프트 설계까지 모두 이해해야 합니다.

📌 추천 학습 흐름

작은 모델 실습 → 경량 파인튜닝 → 검색·임베딩 → 프롬프트 엔지니어링 → RAG 완성

profile
사람은 망각의 동물입니다. 때로는 기록으로 과거의 나를 데려옵니다.

0개의 댓글