minam.log
로그인
minam.log
로그인
DeepSeek V3, VL2, R1 모델
미남잉
·
2025년 2월 1일
팔로우
0
0
DeepSeek의
Github
DeepSeek-V3
Paper:
DeepSeek-V3 Technical Report
출시일: 2024년 12월 26
목적: 일반적인 자연어 처리와 이해를 위한 대규모 언어 모델2
특징: 6,710억 개의 매개변수를 가진 Mixture-of-Experts(MoE) 구조로, 텍스트, 이미지, 음성 처리가 가능한 멀티모달 기능 포함
DeepSeek-VL:
Paper:
DeepSeek-VL: Towards Real-World Vision-Language Understanding
출시일: 2024년 3월 말
목적: 고품질의 비전-언어 이해를 위한 모델4
특징: 시각-언어 데이터를 활용한 사전 훈련에 중점을 두고, 고해상도/저해상도 이미지를 처리하는 하이브리드 비전 인코더 구조 사용
DeepSeek-R1:
Paper:
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
출시일: 2025년 1월 27일2
목적: 수학적 추론, 코딩, 복잡한 문제 해결 등 고도의 추론 능력 강화2
특징: DeepSeek-V3를 기반으로 추가적인 강화 학습(RL)을 적용하여 추론 능력을 향상시킨 모델2
미남잉
Computer Vision Engineer
팔로우
이전 포스트
파이썬 파일 입출력 마스터하기: 파이썬 모드, Pickle, Json
다음 포스트
Docker 핵심 개념, 활용법
0개의 댓글
댓글 작성
관련 채용 정보