DeepSeek V3, VL2, R1 모델

Sue·2025년 2월 1일

DeepSeek의 Github

DeepSeek-V3

Paper: DeepSeek-V3 Technical Report
출시일: 2024년 12월 26
목적: 일반적인 자연어 처리와 이해를 위한 대규모 언어 모델2
특징: 6,710억 개의 매개변수를 가진 Mixture-of-Experts(MoE) 구조로, 텍스트, 이미지, 음성 처리가 가능한 멀티모달 기능 포함

DeepSeek-VL:

Paper: DeepSeek-VL: Towards Real-World Vision-Language Understanding
출시일: 2024년 3월 말
목적: 고품질의 비전-언어 이해를 위한 모델4
특징: 시각-언어 데이터를 활용한 사전 훈련에 중점을 두고, 고해상도/저해상도 이미지를 처리하는 하이브리드 비전 인코더 구조 사용

DeepSeek-R1:

Paper: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
출시일: 2025년 1월 27일2
목적: 수학적 추론, 코딩, 복잡한 문제 해결 등 고도의 추론 능력 강화2
특징: DeepSeek-V3를 기반으로 추가적인 강화 학습(RL)을 적용하여 추론 능력을 향상시킨 모델2

AI/ML Engineer

이전 포스트

파이썬 파일 입출력 마스터하기: 파이썬 모드, Pickle, Json

다음 포스트

Docker 핵심 개념, 활용법

0개의 댓글