DeepSeek는 V3가 발표될 당시만 해도 회의적인 시각이 많았고, 아직 갈 길이 멀다는 평가가 있었습니다. 그러나 올해 1월 R1이 발표되면서 AI 업계뿐만 아니라 다양한 산업군에서 DeepSeek에 대한 관심이 급격히 높아졌습니다.
DeepSeek의 기술 발전 과정을 살펴보면, 단순한 성능 개선을 넘어 실용적이고 현실적인 문제 해결에 집중한 접근 방식이 돋보입니다. V3 기술 보고서와 R1 발표 논문을 읽다 보면, 기존 연구들을 기반으로 효과적인 최적화를 수행하며, 실제 AI 시스템에 적용할 수 있는 방법론을 정교하게 발전시켜 왔음을 알 수 있습니다.
DeepSeek이 공개한 코드는 놀라울 정도로 단순하게 구현되었습니다.
소규모 자금, 지원, 인재로도 충분히 가능 하다는 것과 DeepSeek의 접근 방식은 누구나 생각해볼 수 있는 아이디어들이지만, 결국 그 아이디어들을 제대로 구현하고 실용화한 것이 차별점입니다.
이 모델은 671 억 개의 총 매개 변수(parameter)로 구성된 MOE (Mix-of-Experts) 아키텍처를 사용하며 토큰 당 370 억 개가 활성화됩니다. 14.8 조 개의 다양하고 고품질 토큰으로 사전 학습(pre-training)되었습니다. 이 모델에 지도 미세 조정(SFT) 및 강화 학습(RL)된 DeepSeek-R1로 부터 지식 증류(Knowledge Distillation)하여 사후 학습(post-training)을 대신할 수 있습니다.
특히 DeepSeek-V3은 H800 칩에서 2.788 백만 GPU 시간으로 성능을 달성하여 학습 효율성을 강조했습니다. 평가에 따르면 다른 오픈 소스 모델보다 성능이 우수하고 주요 폐쇄 소스 (Closed Source) 모델의 기능과 일치합니다.
지식 증류는 큰 모델(Teacher)에서 작은 모델(Student)로 학습된 정보를 전이하는 기법
- 경량화: 작은 모델이 더 적은 연산량으로 유사한 성능을 내도록 함.
- 추론 속도 개선: 모바일이나 임베디드 환경에서 빠른 추론을 가능하게 함.
- 일반화 능력 향상: Teacher 모델의 학습된 분포를 따라가면서 과적합을 줄일 수 있음.
사후 학습은 모델이 기본 훈련을 마친 후, 추가적인 도메인 적응이나 정제 과정을 수행하는 것- 도메인 적응(Domain Adaptation): 사전 훈련된 모델을 특정 도메인 데이터로 추가 학습하여 성능을 최적화함.
- 미세 조정(Fine-Tuning): 기존 학습된 모델의 가중치를 일부 고정하거나, 새로운 데이터로 추가 학습하여 성능을 향상함.
- RLHF (Reinforcement Learning with Human Feedback): GPT와 같은 대규모 언어 모델에서, 인간 피드백을 활용하여 모델 출력을 개선하는 기법.
- 퀀타이제이션 후 훈련 (Post-Training Quantization, PTQ): 모델의 가중치를 저비트 형식으로 변환하여 추론 속도를 높이고 메모리 사용을 줄이는 과정.
이 모델은 DeepSeek-V3을 기반으로 사전 지도 학습 된 미세 조정(SFT)없이 대규모 강화 학습(RL)을 통해 추론 기능을 향상시키는 데 중점을 둡니다. 이 모델의 중간모델 인 DeepSeek-R1-Zero는 강화 학습을 통해 자연스럽게 강력한 추론 행동을 개발했습니다.
그러나 가독성과 언어 혼합에 문제점을 드러냈습니다. 이러한 문제를 해결하기 위해 지도 미세 조정(SFT)이 적용된 DeepSeek-R1을 개발하여 실제 응용 프로그램에 적합한 개선 된 추론 기능을 제공하게 되었습니다.