Qianfan-VL은 3B ~ 70B 매개변수 규모의 비전-언어 모델 시리즈로,
단계적(Progressive) 훈련과 정밀 데이터 합성 전략을 통해
일반 멀티모달 능력과 문서/OCR/추론 같은 분야적 전문 능력을 동시에 확보한 범용 모델이다.

Qianfan-VL은 modular한 설계를 바탕으로, 세 가지 주요 컴포넌트로 구성된다:
InternViT 기반의 비전 인코더를 채택.
Dynamic Tiling 지원으로 최대 4K 해상도 이미지 처리 가능.

모델 크기에 따라:
다국어 처리를 위해 확장된 어휘/멀티링구얼 사전 훈련 포함
이 LLM들은 멀티모달 지식을 언어 생성/추론에 활용할 수 있도록 설계됨.

이 어댑터는 LLM과 Vision Encoder 간 정보를 잇는 핵심 인터페이스임.

Qianfan-VL의 주요 혁신은 4단계의 Progressive Pre-training에 있다.
시각과 언어 간의 기본 연결을 확립
광범위한 멀티모달 데이터를 활용해 일반적 이해 능력을 확장.

특정 분야(예: OCR/문서/수학추론 등)에 특화된 전문 능력 강화.


실사용을 위한 응답 조정 및 명령 추종 능력 강화.
Qianfan-VL의 핵심 기여는 다음과 같이 정리할 수 있다.
기존 범용 VLM은 일반적 시각-텍스트 이해 능력이 뛰어나지만,
특정 분야(예: OCR, 문서 이해, 복잡 추론)에서는 한계가 있었다.
Qianfan-VL은 multi-stage progressive training + high-precision synthetic data 전략으로
도메인별 능력을 크게 향상시킴.
Vision Encoder, Cross-modal Adapter, LLM을 모듈화해
다양한 모델 규모(3B/8B/70B)에 적용 가능하다는 점도 주요 기여임.
즉 유연성과 확장성이 뛰어나다.
OCR, 문서 이해, 수학·논리 추론 등 산업에서 자주 필요한 태스크 성능을 크게 개선함.
이는 학술 성능뿐 아니라 응용성 관점에서도 의미 있는 발전이다.


Qianfan-VL은 일반적인 멀티모달 평가에서
기존 최첨단 모델과 비슷하거나 그 이상의 성능을 보여준다.
예를 들어 CCBench, SEEDBench IMG, ScienceQA, MMStar 등에서 경쟁력 있는 결과를 확보했다.
이런 결과는 도메인 강화 전략이 실제로 효과적임을 정량적으로 보여준다.





Qianfan-VL은 progressive training과 high-precision synthetic data 전략을 통해 일반 멀티모달 능력과 OCR/문서/추론 같은 도메인 특화 능력을 동시에 향상시킨, 다양한 규모의 범용 비전-언어 모델 시리즈다.