AI | LLM

성수당·2025년 12월 23일

AI

목록 보기

1/7

🥔 LLM (Large Language Model) 이란?

LLM은 "Large Language Model"의 약자로, 수십억 개의 파라미터를 가진 대규모 언어 모델을 의미한다. GPT, PaLM, LLaMA, Claude 등의 모델이 여기에 해당하며, 자연어 처리(NLP) 기술을 기반으로 다양한 언어 태스크를 수행한다.

이들은 단순한 문장 완성에서 시작해, 질의응답, 문서 요약, 번역, 코드 생성, 대화, 창작 활동까지 폭넓은 작업을 처리할 수 있다.

🥔 LLM의 핵심 개념

항목	설명
사전 학습(Pretraining)	인터넷의 방대한 텍스트를 학습하여 언어의 통계적 패턴을 익힘
파라미터(Parameter)	모델 내부의 수치 정보로, 수십억 개 이상의 파라미터를 통해 문맥을 학습
토큰(Token)	문장을 잘게 쪼갠 단위 (ex. 단어, 하위 단어 등)
Transformer	LLM의 핵심 구조로, Attention 메커니즘을 통해 문맥을 이해함
Fine-tuning / Instruction tuning	특정 작업에 모델을 맞춤화하는 과정
Inference	학습된 모델을 실제로 활용하는 단계 (예: 질문에 답하기 등)

🥔 LLM의 작동 원리

대규모 텍스트(위키백과, 논문, 웹사이트 등)를 수집
텍스트를 토큰으로 분해해 확률 모델을 학습 (ex. "나는 학교에" → "간다" 확률 예측)
수십억 개의 파라미터가 문맥을 기반으로 다음 토큰을 예측
예측 결과를 반복해서 생성 → 자연스러운 문장 완성

graph LR
  A[텍스트 데이터] --> B[Tokenizer]
  B --> C[Transformer 기반 모델]
  C --> D[다음 토큰 예측]
  D --> E[문장 생성]

🥔 LLM의 활용 예시

분야	활용 사례
코딩	코드 자동 생성, 리팩토링, 디버깅 (ex. Copilot, GPT-4 Code Interpreter)
고객 응대	챗봇, 이메일 자동 응답, 상담 자동화
의료/법률	의료 문서 정리, 판례 요약, 문서 검색
교육	개인 튜터, 퀴즈 생성, 자동 채점
창작	시, 소설, 그림 설명 생성 등

🥔 LLM의 한계점

환각(hallucination): 사실과 다른 내용을 그럴듯하게 생성할 수 있음
편향(Bias): 훈련 데이터에 존재하는 편향이 결과에 반영될 수 있음
계산 자원: 수천만 원 이상의 GPU 자원 필요 (모델 학습 시)
보안/개인정보 문제: 입력값이 외부 서버로 전송될 경우 민감 정보 유출 가능성

🥔 대표적인 LLM 모델들

모델	개발사	특징
GPT-3.5 / GPT-4	OpenAI	강력한 코드, 대화 능력, 다국어 지원
PaLM2 / Gemini	Google	멀티모달 처리 능력 강화
Claude	Anthropic	보다 안전하고 제어된 응답 설계
LLaMA 2	Meta	오픈소스에 가까운 라이선스, 연구 중심
Mistral	Mistral AI	경량화된 모델로 성능과 속도 절충

🥔 LLM vs 일반 NLP 모델

항목	일반 NLP 모델	LLM
학습 데이터	수백 MB~수 GB	수십~수백 TB
파라미터 수	수백만 ~ 수천만 개	수십억 ~ 수천억 개
응답 능력	제한적	다목적, 문맥 기반 생성 가능
대표 모델	BERT, LSTM 등	GPT, PaLM, LLaMA 등

🥔 마무리

LLM은 AI 시대의 핵심 엔진이며, 앞으로도 다양한 산업에 큰 영향을 줄 것이다.
단순한 대화 수준을 넘어서, 개발, 검색, 요약, 창작, 추천 시스템 등 광범위하게 사용되고 있다.
개발자로서 LLM을 이해하고 활용하는 역량은 앞으로 점점 더 중요해질 것이다.

성수당

말하는 감자🥔

다음 포스트