DeepSeek V4 논문 정리: 1M 토큰 컨텍스트를 현실적으로 쓰기 위한 모델

포비·2026년 5월 7일

알아보자

목록 보기
103/111

DeepSeek V4 논문을 읽고 나서 가장 먼저 든 생각은 이거였다.

"이 논문은 단순히 더 똑똑한 모델을 만들었다는 이야기가 아니다.
긴 문맥을 진짜 제품 수준으로 쓰기 위해 비용 구조를 다시 설계한 논문에 가깝다."

요즘 LLM 경쟁은 단순히 벤치마크 점수를 올리는 방향만으로는 설명하기 어렵다.
모델이 더 오래 생각하고, 더 많은 문서를 읽고, 더 긴 작업 흐름을 유지하려면 결국 컨텍스트 길이가 중요해진다.

하지만 컨텍스트를 길게 가져가면 문제가 생긴다.
토큰이 길어질수록 attention 계산량과 KV cache 메모리가 커지고, 이게 곧 비용과 지연 시간으로 이어진다.

DeepSeek V4는 이 문제를 정면으로 다룬다.
논문 제목도 그래서 DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence다.

핵심은 1M 토큰 컨텍스트를 지원하는 것이 아니라,
1M 토큰 컨텍스트를 훨씬 더 싸고 효율적으로 쓰게 만드는 것이다.

DeepSeek V4는 어떤 모델인가

DeepSeek V4는 크게 두 가지 모델로 공개됐다.

모델전체 파라미터활성화 파라미터컨텍스트 길이
DeepSeek-V4-Pro1.6T49B1M
DeepSeek-V4-Flash284B13B1M

둘 다 Mixture-of-Experts, 즉 MoE 구조를 사용한다.
전체 파라미터는 크지만, 매 토큰마다 모든 파라미터를 쓰는 것이 아니라 일부 expert만 활성화하는 방식이다.

그래서 Pro는 전체 1.6T 파라미터를 가지고 있지만, 실제로 토큰 하나를 처리할 때 활성화되는 파라미터는 49B다.
Flash는 더 작은 모델로, 전체 284B에 13B 활성화 파라미터를 가진다.

이 구조만 보면 기존 DeepSeek 계열의 연장선처럼 보인다.
하지만 V4의 진짜 차이는 attention과 KV cache 쪽에 있다.

논문의 핵심 문제의식

LLM에서 긴 문맥은 강력하다.

긴 문서를 한 번에 읽을 수 있고,
여러 파일을 한꺼번에 넣을 수 있고,
에이전트가 긴 작업 이력을 기억하면서 계속 행동할 수 있다.

하지만 일반적인 attention 구조에서는 문맥이 길어질수록 계산량과 메모리 부담이 급격히 커진다.
즉, 1M 토큰을 지원한다고 말하는 것과 1M 토큰을 실제 서비스에서 자주 쓸 수 있게 만드는 것은 완전히 다른 문제다.

DeepSeek V4 논문은 이 지점을 이렇게 푼다.

  • 긴 문맥 전체를 항상 똑같은 밀도로 보지 않는다.
  • 오래된 토큰은 압축해서 다룬다.
  • 필요한 정보는 sparse하게 골라서 본다.
  • 가까운 토큰은 sliding window로 세밀하게 본다.
  • KV cache를 압축하고, 저장하고, 재사용하기 쉽게 만든다.

결국 목표는 명확하다.

긴 문맥을 유지하되, attention 계산과 KV cache 비용을 줄인다.

핵심 기술 1: CSA, 압축하고 필요한 것만 본다

DeepSeek V4에서 가장 중요한 키워드 중 하나는 CSA, 즉 Compressed Sparse Attention이다.

CSA는 이름 그대로 두 단계를 가진다.

  1. KV cache를 sequence 방향으로 압축한다.
  2. 압축된 KV 중에서 필요한 것만 sparse하게 선택한다.

일반 attention은 과거 토큰들을 전부 직접 보는 방식에 가깝다.
하지만 1M 토큰 상황에서는 이 방식이 너무 비싸다.

CSA는 먼저 여러 토큰의 KV 정보를 하나의 압축된 entry로 만든다.
그다음 현재 query가 어떤 압축 entry를 봐야 하는지 lightning indexer가 점수를 매기고, top-k만 선택한다.

쉽게 말하면 이렇다.

긴 책 전체를 매번 처음부터 끝까지 정독하는 것이 아니라,
먼저 페이지들을 요약 단위로 압축해두고,
지금 질문과 관련 있는 요약 블록만 골라 읽는 방식이다.

이 방식 덕분에 긴 컨텍스트에서 계산량을 크게 줄일 수 있다.

핵심 기술 2: HCA, 더 세게 압축하지만 dense하게 본다

두 번째 attention 구조는 HCA, 즉 Heavily Compressed Attention이다.

CSA가 "압축 후 필요한 것만 sparse하게 선택"하는 방식이라면,
HCA는 "더 강하게 압축한 뒤 dense attention을 수행"하는 방식이다.

둘은 역할이 다르다.

  • CSA는 중요한 블록을 골라보는 데 강하다.
  • HCA는 훨씬 더 강한 압축을 통해 긴 범위를 비용 효율적으로 훑는 데 강하다.

DeepSeek V4는 CSA와 HCA를 섞는다.
그래서 논문에서는 이를 Hybrid Attention Architecture라고 부른다.

이 구조는 긴 문맥에서 중요한 균형을 잡는다.

  • 너무 많이 보면 비싸다.
  • 너무 적게 보면 정보를 놓친다.
  • 그래서 일부는 sparse하게 고르고, 일부는 강하게 압축해서 본다.
  • 가까운 정보는 sliding window attention으로 보완한다.

즉 DeepSeek V4의 attention은 단순히 "길게 보는 attention"이 아니라,
어떤 정보는 자세히 보고, 어떤 정보는 압축해서 보고, 어떤 정보는 골라서 보는 구조에 가깝다.

핵심 기술 3: mHC, 깊은 모델의 residual 연결을 안정화한다

DeepSeek V4의 또 다른 구조적 변화는 mHC, 즉 Manifold-Constrained Hyper-Connections다.

일반적인 Transformer는 residual connection을 사용한다.
레이어가 깊어질수록 정보가 안정적으로 흐르게 하기 위해 입력을 다음 층으로 더해주는 구조다.

그런데 모델이 커지고 깊어질수록 residual 흐름도 더 정교하게 다룰 필요가 생긴다.
DeepSeek V4는 여기서 Hyper-Connections 계열 아이디어를 가져오되, 안정성을 위해 residual mapping을 특정 manifold 위로 제한한다.

논문에서는 이를 통해 layer 사이의 signal propagation을 안정화하면서도 모델 표현력을 유지하려고 한다.

쉽게 말하면 이렇다.

단순히 층을 더 깊게 쌓는 것이 아니라,
층 사이에서 정보가 섞이는 방식을 더 안정적으로 제어한다.

이건 겉으로 보기에는 attention만큼 화려하지 않지만,
초대형 모델 학습에서는 꽤 중요한 부분이다.
모델이 커질수록 성능만큼이나 중요한 것이 학습 안정성이기 때문이다.

핵심 기술 4: Muon Optimizer

DeepSeek V4는 대부분의 파라미터 학습에 Muon optimizer를 사용한다.

논문은 Muon을 사용한 이유를 빠른 수렴과 학습 안정성으로 설명한다.
다만 모든 파라미터에 Muon을 쓰는 것은 아니고, embedding, prediction head, RMSNorm 계열 일부에는 AdamW를 유지한다.

이 부분은 DeepSeek V4가 단순히 모델 구조만 바꾼 것이 아니라,
학습 최적화까지 함께 바꿨다는 점을 보여준다.

V4에서 중요한 메시지는 반복된다.

  • architecture만 바꿔서는 부족하다.
  • optimizer도 바꿔야 한다.
  • kernel과 cache 관리도 바꿔야 한다.
  • training framework와 inference framework까지 같이 봐야 한다.

결국 1M context는 모델 하나의 기능이 아니라,
모델 구조, 학습, 추론 시스템이 함께 맞물린 결과다.

1M 토큰에서 무엇이 좋아졌나

논문에서 가장 강하게 주장하는 지점은 효율성이다.

DeepSeek V4-Pro는 1M 토큰 컨텍스트 설정에서 DeepSeek-V3.2와 비교했을 때

  • single-token inference FLOPs는 27%
  • KV cache 크기는 10%

수준으로 줄였다고 설명한다.

DeepSeek V4-Flash는 더 작고 효율적인 모델이라서, 같은 1M 컨텍스트 설정에서

  • single-token inference FLOPs는 10%
  • KV cache 크기는 7%

수준까지 낮췄다고 한다.

이 수치는 이 논문의 핵심을 잘 보여준다.
V4는 단순히 "컨텍스트 길이를 늘렸다"가 아니다.
긴 문맥을 처리하는 비용 자체를 줄이려는 시도다.

KV cache를 따로 다룬 점도 중요하다

긴 컨텍스트에서 KV cache는 정말 큰 문제다.

모델이 이전 토큰들을 다시 계산하지 않기 위해 key/value를 저장해두는데,
컨텍스트가 길어지면 이 cache가 엄청나게 커진다.

DeepSeek V4는 attention 구조가 CSA, HCA, Sliding Window Attention으로 섞여 있기 때문에 KV cache 구조도 단순하지 않다.
그래서 논문은 별도의 KV cache layout을 설계한다.

핵심은 이렇다.

  • CSA/HCA는 압축된 KV cache를 가진다.
  • Sliding Window Attention은 최근 토큰 중심의 별도 상태를 가진다.
  • 압축되지 않은 tail token 상태도 따로 관리한다.
  • 공유 prefix 요청을 위해 on-disk KV cache storage도 사용한다.

이 부분이 꽤 현실적이다.

많은 모델 논문은 benchmark 성능을 앞에 세우지만,
DeepSeek V4는 실제 1M context를 운영할 때 생기는 cache 관리 문제를 꽤 길게 다룬다.

개인적으로 이 논문의 가장 실용적인 부분은 여기라고 본다.
긴 문맥 모델은 결국 "얼마나 긴가"보다 "그걸 감당할 수 있는가"가 더 중요하기 때문이다.

학습 데이터와 post-training

DeepSeek V4는 32T 이상의 토큰으로 사전학습되었다고 설명한다.
데이터에는 웹 문서, 수학, 코드, 긴 문서, 고품질 문서 등이 포함된다.

특히 V4에서는 긴 문서 데이터에 더 큰 비중을 둔다.
논문은 과학 논문, 기술 보고서처럼 긴 문맥 이해에 도움이 되는 자료를 강조한다.

Post-training은 크게 두 단계로 설명된다.

  1. 도메인별 expert를 따로 키운다.
  2. On-Policy Distillation으로 하나의 unified model에 합친다.

여기서 도메인은 수학, 코딩, 에이전트, instruction following 같은 영역이다.
먼저 각 영역에 특화된 모델을 SFT와 RL로 훈련하고,
이후 여러 teacher model의 능력을 하나의 student model로 증류한다.

이 방식은 꽤 흥미롭다.

보통 모델을 하나로 만들면 특정 능력이 서로 충돌하거나 희석될 수 있다.
DeepSeek V4는 이 문제를 domain expert를 먼저 키운 뒤, on-policy distillation으로 통합하는 방식으로 풀려고 한다.

즉 "하나의 모델이 모든 걸 잘하게 만들기" 위해
처음부터 하나로 밀어붙이는 게 아니라,
각 능력을 따로 끌어올린 뒤 다시 합치는 전략을 쓴다.

Reasoning mode도 세 가지로 나뉜다

DeepSeek V4는 reasoning effort를 세 단계로 나눈다.

모드특징용도
Non-think빠르고 직관적인 응답일상 질문, 낮은 위험의 간단한 작업
Think High더 느리지만 논리적 분석 강화복잡한 문제 해결, 계획
Think Max최대 reasoning effort어려운 추론, 벤치마크, 고난도 작업

이 구조는 최근 reasoning model 흐름과 맞닿아 있다.

항상 길게 생각하는 것은 비싸다.
반대로 항상 짧게 답하면 어려운 문제에서 성능이 부족하다.

그래서 사용자는 상황에 따라 reasoning budget을 다르게 쓰는 것이 좋다.
DeepSeek V4도 이 방향으로 설계되어 있다.

재밌는 점은 agentic workflow에서 reasoning trace를 어떻게 유지할지도 다룬다는 것이다.
도구 호출이 있는 환경에서는 이전 reasoning 흐름을 더 오래 유지하고,
일반 대화에서는 새 사용자 메시지가 오면 이전 reasoning을 버리는 식으로 관리한다.

즉 V4는 단순 채팅 모델보다 긴 작업을 수행하는 agent model에 더 많은 관심을 두고 있다.

벤치마크 결과는 어떻게 봐야 할까

DeepSeek V4 논문은 V4-Pro-Max가 오픈 모델 중 강력한 성능을 보이며,
일부 reasoning, coding, long-context benchmark에서 closed model과의 격차를 줄였다고 주장한다.

Hugging Face 모델 카드의 self-reported 결과를 보면,
DeepSeek-V4-Pro-Max는 LiveCodeBench, Codeforces, MRCR 1M, CorpusQA 1M, SWE Verified 같은 항목에서 강한 성능을 보인다.

하지만 여기서 조심해야 할 점도 있다.

모델 제공자가 직접 고른 benchmark는 모델의 장점이 잘 드러나는 방향으로 구성될 수 있다.
이건 DeepSeek만의 문제가 아니라 모든 모델 발표에서 공통적으로 봐야 하는 부분이다.

실제로 NIST 산하 CAISI의 별도 평가는 DeepSeek V4를 더 보수적으로 본다.
CAISI는 DeepSeek V4가 중국 공개 모델 중에서는 가장 강력한 편이지만,
일부 비공개 reasoning, agent, cyber, software engineering 평가에서는 미국 frontier model 대비 뒤처진다고 평가했다.

그래서 V4의 성능은 이렇게 보는 게 적절하다.

  • 오픈 모델 기준으로는 매우 강하다.
  • 긴 컨텍스트 효율성은 논문의 가장 중요한 기여다.
  • 자체 benchmark만 보고 frontier closed model과 완전히 동급이라고 단정하기는 어렵다.
  • 외부 평가에서는 과제 종류에 따라 격차가 드러난다.

이 논문이 중요한 이유

DeepSeek V4 논문이 중요한 이유는 "더 큰 모델이 나왔다"가 아니다.

진짜 핵심은 긴 문맥의 경제성이다.

LLM이 앞으로 더 많이 쓰일 영역을 생각해보면 긴 문맥은 거의 필수다.

  • 대규모 코드베이스 분석
  • 여러 문서 기반 리서치
  • 장기 대화
  • 복잡한 에이전트 워크플로우
  • 긴 로그 분석
  • 논문과 보고서 묶음 이해
  • 멀티턴 도구 사용

이런 작업에서는 128K나 200K 컨텍스트도 부족할 때가 있다.
하지만 1M 토큰을 그냥 brute force로 처리하면 비용이 너무 커진다.

DeepSeek V4는 이 병목을 줄이기 위해
attention, cache, 학습, 추론 시스템을 함께 바꿨다.

이 점에서 V4는 단순한 LLM 성능 논문이라기보다,
long-context LLM을 실제로 운영 가능한 형태로 만들기 위한 시스템 논문에 가깝다.

개인적으로 인상 깊었던 부분

가장 인상 깊었던 건 세 가지다.

1. 긴 문맥을 단순 확장이 아니라 압축 문제로 봤다

컨텍스트 길이를 늘리는 건 어렵지만,
그보다 더 어려운 건 비용을 감당하는 것이다.

DeepSeek V4는 attention을 더 똑똑하게 만들기보다,
KV cache와 token history를 어떻게 압축하고 선택할지에 집중한다.

이 방향이 현실적이다.

2. 모델 구조와 추론 시스템을 같이 설계했다

CSA/HCA 같은 attention 구조만 던져놓고 끝나지 않는다.
KV cache layout, on-disk cache, sparse attention kernel, checkpointing, quantization까지 같이 다룬다.

이건 실제 대규모 서비스 경험이 없으면 나오기 어려운 방향이다.

3. agentic coding을 강하게 의식한다

논문은 단순 QA나 수학 benchmark만 보지 않는다.
도구 호출, interleaved thinking, 내부 R&D coding benchmark, long-horizon agent task까지 다룬다.

이건 DeepSeek V4가 단순 챗봇 모델이 아니라,
코딩 에이전트와 긴 작업 자동화 쪽을 꽤 강하게 겨냥하고 있다는 뜻이다.

아쉬운 점과 한계

물론 한계도 있다.

첫째, 구조가 꽤 복잡하다.
논문 스스로도 V4가 극단적인 long-context efficiency를 위해 여러 검증된 구성요소와 trick을 유지했고, 그 결과 아키텍처가 복잡해졌다고 말한다.

둘째, 자체 benchmark 결과만으로 모델의 실제 위치를 단정하기 어렵다.
외부 평가에서는 일부 비공개 benchmark에서 frontier model과의 차이가 드러났다.

셋째, 1M context를 지원한다고 해서 모든 사용자가 바로 로컬에서 편하게 돌릴 수 있는 것은 아니다.
오픈 웨이트라고 해도 Pro 모델은 규모가 매우 크고, 실제 추론에는 상당한 하드웨어와 최적화가 필요하다.

넷째, long context는 만능이 아니다.
긴 문서를 넣을 수 있다고 해서 모델이 항상 필요한 정보를 정확히 찾는 것은 아니다.
결국 retrieval, prompt 구성, tool 사용, evaluation이 함께 중요하다.

마무리

DeepSeek V4 논문을 한 문장으로 정리하면 이렇게 말할 수 있다.

DeepSeek V4는 1M 토큰 컨텍스트를 단순히 지원하는 모델이 아니라,
그 긴 문맥을 더 싸게 처리하기 위해 attention과 KV cache 구조를 다시 설계한 모델이다.

CSA와 HCA는 긴 문맥을 압축하고 선택적으로 보기 위한 핵심 장치다.
mHC는 깊은 모델의 residual 흐름을 안정화하려는 시도다.
Muon optimizer와 FP4/FP8 기반 최적화는 학습과 추론 효율을 끌어올리는 역할을 한다.
그리고 KV cache layout과 on-disk cache는 1M context를 실제 서비스에 가깝게 만드는 시스템적 장치다.

그래서 이 논문은 단순히 "DeepSeek가 새 모델을 냈다" 정도로 보면 아깝다.

오히려 이 질문을 던지는 논문에 가깝다.

긴 문맥을 진짜로 많이 쓰게 될 때, LLM 구조는 어떻게 바뀌어야 하는가?

DeepSeek V4의 답은 꽤 분명하다.

더 많이 기억하려면,
그만큼 더 잘 압축하고,
필요한 것만 더 잘 고르고,
cache를 더 똑똑하게 관리해야 한다.

참고 자료

profile
무엇이든 필요한 것을 합니다. https://mint-middle-1e5.notion.site/2b7655e8316980ad9422d96a6f3947de

0개의 댓글