LLM Architecture

Mujung Kim·2026년 5월 5일

LLM + RAG 시스템

목록 보기

10/11

최신 LLM 아키텍처는 한마디로 정리하면
👉 “Transformer 기반 + MoE + 멀티모달 + 에이전트 구조” 로 진화했다고 보면 정확합니다.
Transformer-based architectures in ChatGPT, Claude, and Gemini

1. 공통 베이스: Transformer (여전히 핵심)

모든 최신 LLM의 뼈대는 동일합니다.

핵심 구조

Self-Attention (문맥 이해)
Feedforward (MLP)
Positional Encoding
Layer stacking (수십~수백 레이어)

👉 이 구조는 2017년 “Attention Is All You Need” 이후
GPT / Gemini / Claude 전부 공통 기반입니다.

2. 최신 LLM의 핵심 변화 (중요 포인트 4가지)

(1) Dense → Sparse (MoE: Mixture of Experts)

전체 파라미터는 수천억~수조
하지만 토큰마다 일부만 활성화

👉 구조:

입력 → Router → Expert 선택 → 일부 네트워크만 실행

✔ 장점

성능 ↑
비용 ↓

👉 현재 사실상 표준 구조

GPT 일부 버전
Gemini
DeepSeek / Llama4 등

(2) 멀티모달 네이티브 통합

과거:

텍스트 모델 + 이미지 모델 따로

현재:

하나의 모델이 전부 처리

예:

텍스트
이미지
음성
코드

👉 특히 Gemini 는
처음부터 멀티모달 설계

👉 ChatGPT (GPT-4o 이후)

“native multimodal transformer” 구조

(3) Long Context + Memory 구조

GPT: 128K ~ 256K+
Gemini: 최대 1M 토큰급

👉 이를 위해 등장한 기술:

RoPE / iRoPE (position encoding 개선)
KV cache 최적화
Sliding window attention

👉 결과:

문서 전체 reasoning 가능
RAG 의존도 감소

(4) Agentic Architecture (요즘 핵심)

단순 LLM → “생각하고 행동하는 구조”
구성

LLM (Transformer)
 + Planning module
 + Tool use
 + Memory
 + Self-evaluation loop

👉 GPT-5 계열 특징:

내부에서 계획 → 실행 → 검증

👉 Gemini:

Tool + agent 시스템 강하게 통합

3. 모델별 구조 비교 (핵심 요약)

🔵 GPT 계열 (ChatGPT)

구조: Dense Transformer (+ 일부 MoE 가능성)
특징:

안정성 / 범용성
Agent 기능 내장
멀티모달 통합

방향:
👉 “균형형 범용 AI”

🟡 Gemini (Google)

구조: Sparse MoE Transformer
특징:

멀티모달 native
초장문 context (최대 1M)
tool/agent integration 강함

방향:
👉 “멀티모달 + 시스템 통합 AI”

🟢 최신 오픈모델 (참고)

Llama 4 → MoE + iRoPE
DeepSeek → MLA (attention 압축)
Qwen → GQA + MoE

👉 차이는 거의 이것:

attention 최적화 방식
MoE routing 전략
memory 효율

4. 한 줄로 정리

최신 LLM 구조는:

Transformer
 + Sparse MoE
 + Multimodal
 + Long Context
 + Agent System

👉 즉,
👉 “텍스트 생성 모델 → 범용 인지 시스템”으로 진화 중

5. 개발자 관점 핵심 포인트 (중요)

당신처럼 엔지니어 기준으로 보면:

설계 레벨에서 중요한 건 3가지

Dense vs MoE 선택
Context 처리 전략 (KV cache / chunking)
Agent orchestration layer

👉 실제 성능 차이는
“모델 구조”보다
👉 routing / inference system / tool integration에서 더 많이 납니다.

Mujung Kim

천천히 고민하면서 걷는 개발자

이전 포스트

GPT vs Gemini vs Claude를 구조 레벨로 더 깊게 (block diagram + pseudo code) 까지 ...

다음 포스트