CS | LLM(Large Language Model)

성수당·2025년 7월 26일

나혼자 CS

목록 보기
12/18
post-thumbnail

🥔 LLM(Large Language Model)의 정의

LLM은 단순한 텍스트 생성기가 아닌, 거대한 언어 이해 엔진이다. AI 시대의 중심 기술로써 프로그래밍, 검색, 번역, 교육 등 다양한 분야에서 활약하고 있으며, 앞으로의 개발자로서 꼭 이해하고 응용할 줄 알아야 할 핵심 개념이다.

  • 방대한 양의 텍스트 데이터를 학습한 자연어 처리 모델

  • 입력된 문장을 이해하고, 그에 맞는 자연스러운 텍스트를 생성함

  • 일반적으로 Transformer 아키텍처 기반 (예: GPT, BERT 등)

🥔 어떻게 동작?

LLM의 작동 원리는 크게 아래와 같다:

  • 입력 토큰화(Tokenization)
    → "나는 개발자야" → [123, 452, 903] (숫자 ID로 변환)

  • 입력 벡터 임베딩(Embedding)
    → 단어 의미를 벡터로 표현 (수치화된 의미)

  • Transformer 모델 처리 (Self-Attention)
    → 문맥을 고려하여 다음 단어를 예측
    → "나는 개발자" 다음에 나올 단어는 "야"가 될 가능성이 높음

  • 출력 생성 (Sampling, Beam Search 등)
    → 확률 분포 기반으로 가장 자연스러운 결과 선택

🥔 LLM 학습 데이터

  • 웹 문서, 책, 위키백과, 뉴스, 코드 등 수십억 문장

  • GPT의 경우 3000억 개 이상의 토큰을 학습했다고 알려짐

  • 훈련 데이터는 주로 공개 텍스트이지만, 사전 정제(cleaning)됨

🥔 LLM 사용처

분야활용 예시
일반 텍스트 생성블로그, 요약, 스토리 작성 등
프로그래밍코드 자동 생성 (GitHub Copilot)
검색/질의응답문서 기반 QA, 고객 지원
언어 번역다국어 자연어 번역
교육/튜터질문 답변, 설명 도우미
대화형 AIChatGPT, Claude 등 챗봇 서비스

🥔 대표적인 LLM

모델개발사특징
GPT-4OpenAI다용도, 강력한 생성 성능
ClaudeAnthropic안전성 강조
GeminiGoogle검색과 결합한 응답 능력
LLaMA 3Meta오픈소스 지향
MistralMistral AI경량화 & 고성능

🥔 LLM의 한계

문제설명
할루시네이션(Hallucination)사실처럼 보이는 허위 정보를 생성
모델 크기 → 연산 부담파라미터 수가 많아 리소스 소모 큼
실시간 정보 반영 어려움학습 시점 이후의 정보는 알지 못함
개인정보 유출 위험학습 데이터에 포함된 정보가 노출될 수 있음
profile
말하는 감자🥔

0개의 댓글