LLM Architecture

Mujung Kim·2026년 5월 5일

LLM + RAG 시스템

목록 보기
10/11

최신 LLM 아키텍처는 한마디로 정리하면
👉 “Transformer 기반 + MoE + 멀티모달 + 에이전트 구조” 로 진화했다고 보면 정확합니다.
Transformer-based architectures in ChatGPT, Claude, and Gemini

1. 공통 베이스: Transformer (여전히 핵심)

모든 최신 LLM의 뼈대는 동일합니다.

핵심 구조

  • Self-Attention (문맥 이해)
  • Feedforward (MLP)
  • Positional Encoding
  • Layer stacking (수십~수백 레이어)

👉 이 구조는 2017년 “Attention Is All You Need” 이후
GPT / Gemini / Claude 전부 공통 기반입니다.


2. 최신 LLM의 핵심 변화 (중요 포인트 4가지)

(1) Dense → Sparse (MoE: Mixture of Experts)

  • 전체 파라미터는 수천억~수조
  • 하지만 토큰마다 일부만 활성화

👉 구조:

입력 → Router → Expert 선택 → 일부 네트워크만 실행

✔ 장점

  • 성능 ↑
  • 비용 ↓

👉 현재 사실상 표준 구조

  • GPT 일부 버전
  • Gemini
  • DeepSeek / Llama4 등

(2) 멀티모달 네이티브 통합

과거:

  • 텍스트 모델 + 이미지 모델 따로

현재:

  • 하나의 모델이 전부 처리

예:

  • 텍스트
  • 이미지
  • 음성
  • 코드

👉 특히 Gemini 는
처음부터 멀티모달 설계

👉 ChatGPT (GPT-4o 이후)

“native multimodal transformer” 구조


(3) Long Context + Memory 구조

  • GPT: 128K ~ 256K+
  • Gemini: 최대 1M 토큰급

👉 이를 위해 등장한 기술:

  • RoPE / iRoPE (position encoding 개선)
  • KV cache 최적화
  • Sliding window attention

👉 결과:

  • 문서 전체 reasoning 가능
  • RAG 의존도 감소

(4) Agentic Architecture (요즘 핵심)

단순 LLM → “생각하고 행동하는 구조”
구성

LLM (Transformer)
 + Planning module
 + Tool use
 + Memory
 + Self-evaluation loop

👉 GPT-5 계열 특징:

  • 내부에서 계획 → 실행 → 검증

👉 Gemini:

  • Tool + agent 시스템 강하게 통합

3. 모델별 구조 비교 (핵심 요약)

🔵 GPT 계열 (ChatGPT)

구조: Dense Transformer (+ 일부 MoE 가능성)
특징:

  • 안정성 / 범용성
  • Agent 기능 내장
  • 멀티모달 통합

방향:
👉 “균형형 범용 AI”

🟡 Gemini (Google)

구조: Sparse MoE Transformer
특징:

  • 멀티모달 native
  • 초장문 context (최대 1M)
  • tool/agent integration 강함

방향:
👉 “멀티모달 + 시스템 통합 AI”

🟢 최신 오픈모델 (참고)

  • Llama 4 → MoE + iRoPE
  • DeepSeek → MLA (attention 압축)
  • Qwen → GQA + MoE

👉 차이는 거의 이것:

  • attention 최적화 방식
  • MoE routing 전략
  • memory 효율

4. 한 줄로 정리

최신 LLM 구조는:

Transformer
 + Sparse MoE
 + Multimodal
 + Long Context
 + Agent System

👉 즉,
👉 “텍스트 생성 모델 → 범용 인지 시스템”으로 진화 중

5. 개발자 관점 핵심 포인트 (중요)

당신처럼 엔지니어 기준으로 보면:

설계 레벨에서 중요한 건 3가지

  • Dense vs MoE 선택
  • Context 처리 전략 (KV cache / chunking)
  • Agent orchestration layer

👉 실제 성능 차이는
“모델 구조”보다
👉 routing / inference system / tool integration에서 더 많이 납니다.

profile
천천히 고민하면서 걷는 개발자

0개의 댓글