[멀티모달 시리즈] DeepSeek-VL - 성능, 한계, 그리고 미래: DeepSeek-VL, 어디까지 왔나?

JOINSPIRED·2026년 3월 10일

멀티모달 AI 논문 리뷰

목록 보기

7/7

안녕하세요. AI 연구 동향을 깊이 있게 분석하는 멀티모달 시리즈 DeepSeek VL편의 마지막, 세 번째 시간입니다.

지난 1, 2편에서는 DeepSeek-VL이 '실세계 이해(Real-world Understanding)'라는 목표를 달성하기 위해 하이브리드 비전 인코더를 어떻게 구축했으며, 7:3의 데이터 황금 비율과 렌더링 기반 전처리를 통해 공학적 난제들을 어떻게 해결했는지 해부해 보았습니다.

이론과 아키텍처가 아무리 훌륭해도 결국 AI 모델의 가치는 정량적인 '성능'으로 증명됩니다. 오늘은 DeepSeek-VL이 실제 학술 벤치마크와 사용자 테스트에서 어떤 성적표를 받았는지 분석해 보겠습니다. 아울러 현재 모델이 가진 명확한 한계점과, 연구팀이 공식적으로 예고한 차세대 기술 발전 방향(MoE)까지 종합적으로 짚어보며 시리즈를 마무리하겠습니다.

1. 종합 성능 평가: 오픈소스 멀티모달의 새로운 기준점

DeepSeek-VL의 성능 평가는 크게 세 가지 축으로 나뉘어 진행되었습니다. 멀티모달 이해력 검증, 언어 능력의 보존 여부 확인, 그리고 실제 사용자 시나리오 기반의 정성적 평가입니다.

💡 용어 가이드: 7B, 13B가 무슨 뜻인가요?
AI 모델 이름 뒤에 붙는 'B'는 Billion(10억)의 약자로, 모델을 구성하는 파라미터(매개변수)의 개수를 의미합니다. 인간의 뇌로 치면 뉴런을 연결하는 시냅스의 수와 같습니다.

7B (70억 개): 일반적인 연구 환경이나 고성능 PC에서도 구동을 시도해 볼 수 있는 효율적인 '경량~중형' 체급입니다.

13B 이상: 체급이 커질수록 대체로 더 똑똑해지지만, 구동하기 위해 훨씬 더 비싸고 거대한 컴퓨팅 자원이 필요합니다.

1.1. 멀티모달 벤치마크: 13B 체급을 넘어서는 효율성

논문에 제시된 멀티모달 평가 결과에 따르면, DeepSeek-VL-7B는 동급(7B) 오픈소스 모델들은 물론, 파라미터 규모가 두 배 가까이 큰 13B 체급의 모델들과 비교해서도 매우 경쟁력 있는 지표를 보여줍니다.

💡 벤치마크 지표 가이드 (모두 100점 만점의 정확도 지표이며, 높을수록 좋습니다.)

SEEDBench (자연 이미지 이해): 이미지 내의 객체, 배경, 행동 등 공간적/시간적 요소를 모델이 얼마나 잘 이해하는지 묻는 객관식 평가입니다.

MMBench (종합 멀티모달 이해): 시각적 논리, 공간 관계 등 다방면의 능력을 종합 평가합니다. 모델이 정답을 찍어서 맞추는 것을 방지하기 위해 선택지 순서를 섞는 등 매우 엄격한 평가 방식을 사용합니다.

자연 이미지 이해 (SEEDBench 등): DeepSeek-VL-7B는 SEEDBench에서 70.4점을 기록했습니다. 이는 13B 파라미터를 가진 거대 모델인 LLaVA-1.5(68.2점)나 LLaVA-Next(71.9점)와 대등한 수준이며, 현존 최고 수준의 폐쇄형(Proprietary) 모델인 GPT-4V(71.6점)에 근접하는 유의미한 성과입니다.
종합 멀티모달 이해 (MMBench): 엄격한 MMBench에서도 73.2점을 기록하여, 기존 오픈소스 모델들의 평균치를 크게 상회했습니다.
초경량화 모델(1.3B)의 저력: 파라미터가 13억 개에 불과한 1.3B 버전 역시 놀랍습니다. 파라미터 수가 두 배 이상 큰 2.7B 체급의 경쟁 모델(MobileVLM 2.7B 등) 대비 주요 지표에서 우위를 점하며, 특히 고도의 논리가 필요한 MathVista 지표에서는 타사의 7B 모델들과 대등한 성과를 기록하여 파라미터 효율성을 완벽히 증명했습니다. 향후 모바일 기기 자체에서 돌아가는 온디바이스(On-device) AI로서의 활용 가능성을 보여줍니다.

1.2. 언어 벤치마크: 파국적 망각(Catastrophic Forgetting)의 방어

멀티모달 학습의 가장 큰 부작용은 시각 정보를 새롭게 배우는 과정에서 기존에 똑똑했던 텍스트 이해 능력이 훼손되는 '파국적 망각' 현상입니다. 연구팀은 사전 학습 단계에서 순수 텍스트 데이터 비율을 70%로 강제하여 이를 방어했습니다.

💡 벤치마크 지표 가이드 (마찬가지로 100점 만점, 높을수록 좋습니다.)

HellaSwag (일반 상식 추론): "여자가 테니스 라켓을 휘둘렀다. 그다음 일어날 일은?"처럼 주어진 상황 뒤에 이어질 가장 자연스러운 상식적 행동을 고르는 테스트입니다.

MMLU (다목적 지식 추론): STEM(이공계), 인문학, 역사, 법학 등 57개 학문 분야에 대한 4지선다형 객관식 시험입니다. 모델이 본질적으로 얼마나 방대한 지식을 갖추고 똑똑한지 평가하는 가장 대표적인 지표입니다.

언어 벤치마크 평가 결과, DeepSeek-VL은 베이스라인 모델인 DeepSeek-LLM-7B(텍스트 전용)의 능력을 완벽하게 보존하거나 일부 뛰어넘는 결과를 보여주었습니다.

일반 상식 추론 (HellaSwag): 68.4점을 기록하여 베이스 모델(68.5점)과 오차 범위 내의 동일한 성능을 유지했습니다. 눈을 달아주어도 상식을 잃지 않은 것입니다.
다목적 지식 추론 (MMLU): 대학 수준의 지식을 묻는 MMLU에서는 52.4점을 기록하여, 오히려 베이스 모델(49.4점) 대비 성능이 향상되는 기현상을 보여주었습니다. 시각적 이미지를 텍스트 언어로 번역하고 매핑하는 훈련 과정이 모델의 전반적인 개념 추론 능력에 긍정적인 시너지(Positive Transfer)를 일으켰음을 시사합니다.

1.3. 실제 사용자 평가 (Human & GPT-4V Evaluation)

학술 벤치마크 점수가 아무리 높아도, 실무 환경에서 사용자가 체감하는 답변의 질이 떨어지면 의미가 없습니다. 연구팀은 앞서 구축한 분류 체계 중 핵심인 7대 카테고리(인식, 변환, 논리 추론 등)에 기반한 100개의 실세계 시나리오를 바탕으로 두 가지 방식의 블라인드 테스트를 진행했습니다.

GPT-4V 기반 교차 평가: GPT-4V를 심판으로 설정하여 "어떤 모델의 대답이 더 지시를 잘 따르고 유용한가?"를 묻는 평가에서, DeepSeek-VL은 Fuyu-8B, CogVLM, 그리고 InternLM-XComposer2-VL 등 쟁쟁한 타 오픈소스 모델 대비 60% 이상의 압도적인 승률을 기록했습니다.
실제 인간 평가 (Human Evaluation): 사람이 직접 답변의 질을 채점한 정성 평가에서도 놀라운 결과를 보였습니다. 특히 실세계 업무의 핵심인 문서 인식(Recognition), 코드 변환(Conversion), 상식 추론(Commonsense) 영역에서는 세계 최고 수준인 GPT-4V의 답변 퀄리티에 거의 육박하는(Close to GPT-4V) 훌륭한 텍스트 생성 능력을 보여주었습니다.

2. DeepSeek-VL의 한계: 넘어야 할 '추론'과 '용량'의 벽

물론 DeepSeek-VL이 모든 영역에서 완벽한 것은 아닙니다. 연구팀은 논문의 한계점(Limitation) 섹션을 통해 현재 오픈소스 멀티모달 모델들이 공통으로 직면한 명확한 기술적 약점을 투명하게 고백합니다.

2.1. 고차원적 논리 추론과 수학적 능력의 저하

모델의 가장 치명적인 약점은 복잡한 논리 기하학이나 수학적 연산에서 드러났습니다.

💡 벤치마크 지표 가이드 (100점 만점, 높을수록 좋음)

MathVista (시각적 수학 추론): 복잡한 함수 그래프, 기하학 도형, 3D 차트 등을 '눈으로 보고' 풀어야 하는 고난도 수학 평가입니다.

GSM8K (텍스트 수학 추론): "철수는 사과 5개를 가졌고..."와 같은 초등학교 수준의 순수 텍스트 수학 문장제 문제입니다. 고도의 논리적 연산 능력을 묻습니다.

시각적 수학 벤치마크인 MathVista에서 DeepSeek-VL은 36.1점을 기록했습니다. 타 오픈소스 모델들보다는 우수하지만, 압도적인 1위인 GPT-4V(47.8점)와 비교하면 수학적 그래프를 분석하는 눈썰미가 확연히 떨어집니다.

더 뼈아픈 부분은 순수 텍스트 수학 벤치마크인 GSM8K에서의 결과입니다. 눈이 없던 텍스트 베이스 모델이 63.0점이었던 반면, 멀티모달 학습을 마친 DeepSeek-VL은 55.0점으로 점수가 유의미하게 하락했습니다. 즉, 제한된 두뇌 용량 안에서 '이미지를 처리하는 신경망'과 '수학적 논리를 계산하는 신경망' 간에 치열한 자원 뺏기(경쟁 상태)가 발생하여 수학 능력이 퇴화한 것입니다.

2.2. 파라미터 용량(Capacity)의 근본적 제약

연구팀은 이러한 수학 추론 능력의 부재가 궁극적으로 '7B(70억 개 파라미터)'라는 모델 사이즈의 태생적 용량 한계에서 비롯된다고 분석합니다. 현실 세계의 방대한 시각적 디테일을 담아내면서, 동시에 고차원적인 수학/논리 법칙까지 모두 암기하기에는 7B의 파라미터 공간(뇌 용량)이 절대적으로 부족하다는 공학적 결론입니다.

3. 향후 연구 방향 및 비전: MoE가 열어갈 새로운 시대

DeepSeek 연구팀은 이러한 '뇌 용량의 한계'를 극복하기 위해, 논문 말미에 구체적이고 야심 찬 차세대 연구 방향을 공식적으로 예고했습니다.

3.1. 초거대화 및 MoE (Mixture of Experts) 기술의 도입

현재 7B 스케일이 가진 '추론 한계'를 타파하기 위해, 연구팀은 차세대 모델 아키텍처에 MoE(Mixture of Experts, 전문가 혼합) 기술을 도입할 계획이라고 밝혔습니다.

💡 비유로 이해하는 MoE (전문가 혼합) 기술
동네 의원(일반 모델)의 의사 1명이 내과, 외과, 안과 진료를 모두 보려면 지식의 깊이가 얕아지고 쉽게 지칩니다. 반면 종합병원(MoE 모델)은 수십 명의 전문의를 두고, 환자(입력 데이터)의 증상에 따라 딱 맞는 전문의(Expert 신경망) 한두 명에게만 진료(연산)를 맡깁니다.
즉, 수학 문제가 들어오면 '수학 전문 파라미터'만 켜지고, 이미지 분석이 들어오면 '비전 전문 파라미터'만 켜지는 라우팅(Routing) 기술입니다.

이 아키텍처를 도입하면 전체 추론 속도(연산 효율성)는 빠르게 유지하면서도, 모델이 보유한 총 파라미터 용량은 기하급수적으로 키울 수 있습니다. 이는 앞서 언급된 '모달리티 간의 지식 경쟁 현상'을 완전히 해소하고 GPT-4V와의 논리 추론 격차를 단숨에 좁힐 수 있는 핵심 돌파구로 평가받습니다. (실제로 이후 DeepSeek은 이 MoE 기술을 극한으로 끌어올린 모델들을 선보이며 세상을 놀라게 합니다.)

3.2. 오픈소스 생태계에 대한 지속적인 기여

이 논문과 프로젝트가 갖는 가장 큰 의의는, 최종 학습된 가중치(Weights)를 1.3B와 7B 두 가지 버전으로 오픈소스 커뮤니티에 투명하게 공개했다는 점입니다. 다양한 컴퓨팅 환경의 요구를 충족시키기 위한 이 결정은, 소수의 빅테크 기업들이 초거대 멀티모달 모델을 폐쇄적으로 독점하고 있는 현 상황에서 전 세계 개발자 커뮤니티의 집단 지성을 통한 기술 발전을 촉진하는 강력한 대안제입니다.

💡 마무리하며: 진정한 실세계 AI를 향하여

이것으로 DeepSeek-VL 논문 리뷰 3부작을 모두 마칩니다.

"비전(Vision)을 얻기 위해 언어(Language)를 희생하지 않는다"는 이 프로젝트는, 하이브리드 고해상도 인코더 설계와 치밀한 7:3 데이터 배합을 통해 그 가설을 성공적으로 증명해 냈습니다. 아직 고차원적 수학 추론이라는 거대한 장벽을 완벽히 넘어서지는 못했지만, 7B라는 가벼운 체급으로 '실세계 시나리오'에서 보여준 압도적 퍼포먼스는 다가올 개방형 멀티모달 생태계의 가능성을 엿보기에 충분했습니다.

포스팅 시점 이미 MoE 아키텍처를 장착하고 한층 더 거대하고 강력해져 돌아오고 있습니다. 앞으로 함께 다뤄보도록 하겠습니다. 함께해 주셔서 감사합니다.