[cite_start]기존의 강력한 대규모 비전-언어 모델(MLLM)들은 대부분 텍스트만 이해하는 언어 모델을 여러 단계의 복잡한 파이프라인을 거쳐 시각 능력을 지원하도록 '개조'하는 "사후(post-hoc)" 방식으로 만들어졌습니다[cite: 18, 19]. [cite_start]이 접근 방식은 시각과 언어라는 서로 다른 양식을 통합할 때 정렬(alignment) 문제를 일으키고 [cite: 10, 128][cite_start], 이를 해결하기 위해 많은 계산 자원이 소모되는 비효율적인 튜닝 과정이 필요했습니다[cite: 129, 130].
[cite_start]따라서 이 논문은 이러한 다단계 파이프라인의 복잡성과 비효율성을 해결하기 위해, 사전 학습 단계부터 텍스트와 이미지 데이터를 함께 학습시켜 언어와 시각 능력을 동시에 습득하는 '네이티브 멀티모달 사전학습(native multimodal pre-training)' 패러다임을 제안합니다[cite: 8, 131, 251].
[cite_start]사전 학습 단계에서부터 순수 텍스트와 다양한 멀티모달 데이터를 함께 학습시켜 언어와 시각 능력의 근본적인 정렬을 이루고, 여기에 고급 후속 학습 및 테스트 시점의 확장 전략을 더하여 모델의 성능을 극대화한다[cite: 11, 132, 133].
[cite_start]InternVL3는 기존의 "ViT-MLP-LLM" 구조를 따르지만[cite: 214], 학습 패러다임과 여러 기술적 요소에서 큰 차별점을 가집니다.
The multilayer perceptron (MLP) utilized in the model is a two-layer network with
random initialization. In line with the approach taken in InternVL2.5, InternVL3 incorporates a pixel unshuffle
operation to enhance scalability for processing high-resolution images. This operation reduces the visual token
count to one-quarter of its original value, representing each 448×448 image tile with 256 visual tokens.
MLP Layer를 2개를 사용하여 VLM과 LLM의 연결고리 역할을 수행함. 또한, Internvl2.5에서의 pixel unshuffle을 사용하여 고해상도 이미지의 토큰 수를 4분의 1로 줄였다.
This unified training scheme enables the pre-trained model to
learn both linguistic and multimodal capabilities simultaneously, ultimately enhancing its capability to handle
vision-language tasks without introducing additional bridging modules or subsequent inter-model alignment
procedures.
같이 학습을 진행함으로써 기존에 필요로 했던 bridging modules (like Q-former)에 대한 필요성을 감소시켰다. 결과적으로 같이 학습시키는 것은 모든 파라미터가 함께 참여하여 학습하여 더 좋은 성능을 갖게 된다.
where wi denotes the loss weight of token i. Although this formulation naturally propagates gradients through
tokens of all modalities, we restrict the loss computation exclusively to text tokens, resulting in

또한, 텍스트가 생성되는 부분만의 로스를 계산한다. 이런 선택적인 목적함수는 시각 토큰이 직접적인 예측에 활용되는 것이 아닌 맥락으로 적용하게 되며 결과적으로 멀티모달 정보를 임베딩하는 방향으로 학습되어진다.


학습할 때는 무작위로 이미지마다 무작위로 선택되어 학습이 진행되며 실제 추론시에는 입력된 이미지 수에 따라 결정되어 진행한다.만약 δ = 1, V2PE reverts to the conventional positional encoding used in InternVL2.

사전 학습 단계 이후 아래와 같은 두개의 후속 학습 전략을 선택한다.
[cite_start]지도 미세 조정 (SFT): 사전 학습이 끝난 모델에 3D, GUI, 비디오, 창의적 글쓰기 등 더 다양하고 품질 높은 데이터(약 2,170만 개)를 학습시켜 대화 및 지시 수행 능력을 강화합니다[cite: 300, 304, 305, 331].
In this phase, the techniques of random JPEG compression, square loss re-weighting,
and multimodal data packing proposed in InternVL2.5 방식 또한 적용된다.
[cite_start]혼합 선호도 최적화 (MPO): 좋은 답변(positive sample)과 나쁜 답변(negative sample)을 모두 활용하여 모델이 응답의 절대적, 상대적 품질을 학습하게 합니다[cite: 300, 302]. [cite_start]이를 통해 모델의 추론 능력을 더욱 향상시킵니다[cite: 309].
During Pre-training and SFT, the model is trained to predict the next token
conditioned on previous ground-truth tokens. However, during inference, the model predicts each token based on its own prior outputs.
모델이 학습을 진행할 때는 다음 토큰을 생성하기 위해 previous ground-truth tokens을 기반으로 학습을 진행하지만 실제 추론 시에는 on its own prior outputs을 기반으로 생성하게 된다. 이는 한번 잘못 추론하게 되면 누적은 점점 커져 잘못된 결과를 불러오고 이는 특히 COT에서 큼. 이를 distribution shift라 함.
L_p (Preference loss)

positive vs negative 응답 쌍을 비교해서, positive 응답의 확률이 더 높아지도록 조정
일반적으로 ranking loss나 pairwise logistic loss 사용
L_q (Quality loss)

응답의 전반적인 품질 점수(예: 가독성, 문법, 일관성)를 높이도록 유도
예: GPT 평가 점수, 휴리스틱 품질 점수
L_g (Generation loss)
전통적인 cross-entropy loss로 next token prediction
모델이 언어 생성 능력을 잃지 않도록 유지
기존 SFT만 한 모델:
“정답을 계속 들려주는 과외 선생님” → 시험에서 혼자 풀면 갑자기 실수 잦아짐
MPO 적용 모델:
“정답뿐 아니라, 틀린 풀이도 같이 보여주고, 어떤 게 더 좋은지 비교해서 학습” → 시험 상황에서도 흔들리지 않음


전반적으로 학습 데이터가 늘어나지는 않았지만 MLP만을 학습시키는 것이 아닌 모든 파라미터를 학습하므로써 성능 향상이 존재했다.
주요 벤치마크 성능 비교 (Figure 1)
| 모델 | MMMU (종합) | MathVista (수학) | OCRBench (OCR) | LongVideoBench (비디오) |
|---|---|---|---|---|
| InternVL3-78B | [cite_start]72.2% [cite: 48] | [cite_start]79.6% [cite: 58] | [cite_start]906 [cite: 112] | [cite_start]65.7% [cite: 121] |
| ChatGPT-4o-latest | [cite_start]72.9% [cite: 52] | [cite_start]71.6% [cite: 62] | [cite_start]894 [cite: 115] | - |
| Gemini-2.5 Pro | [cite_start]74.7% [cite: 53] | [cite_start]80.9% [cite: 63] | [cite_start]862 [cite: 116] | - |
| Qwen2.5-VL 72B | [cite_start]70.2% [cite: 49] | [cite_start]74.8% [cite: 59] | [cite_start]885 [cite: 113] | [cite_start]60.7% [cite: 122] |