
보상 함수: R_overall = R_accuracy + R_format - P_control
→ 강화학습을 통해 VLM이 스스로 고해상도 이미지 필요 여부를 동적으로 결정
현재 비전-언어 모델들은 성능 향상을 위해 지속적으로 증가하는 시각 토큰을 사용하고 있다.
LLaVA 1.5: 2048×1024 이미지 → 576개 시각 토큰 Qwen2.5-VL: 동일 이미지 → 2,678개 시각 토큰 (4.6배 증가)
비효율적인 자원 사용
태스크별 요구사항 무시
고정된 압축 비율의 한계
"VLM이 스스로 판단하여 언제 고해상도 이미지가 필요한지 동적으로 결정할 수 있다면?"
→ VisionThink로 해결하자!
Stage 1: Low-Resolution Processing
VLM이 먼저 1/4 해상도 이미지로 질문에 답변을 시도한다. 정보가 충분하면 바로 답변을 생성한다.
Stage 2: Adaptive High-Resolution Request
저해상도 정보가 불충분하다고 판단되면, 특별한 토큰을 출력하여 원본 고해상도 이미지를 요청한다.
Stage 3: Enhanced Answer Generation
고해상도 이미지를 바탕으로 더 정확한 최종 답변을 생성한다.
Multi-Turn GRPO 확장
기존 GRPO 알고리즘을 Multi-turn 상황에 맞게 확장
# Multi turn GRPO 목적 함수
J_GRPO(θ) = E[
1/G * Σ(1/Σ I(o_i,t)) * Σ I(o_i,t) *
min(p_i,t * Â_i,t, clip(p_i,t, 1-ε, 1+ε) * Â_i,t)
- β * D_KL[π_θ||π_ref]
]
LLM-as-Judge 전략
3-Component 보상 시스템
R_overall = R_accuracy + R_format - P_control
Accuracy Reward: LLM-as-Judge가 평가한 답변 정확성 (0 또는 1)
Format Reward: 출력 형식 준수 여부 (최대 0.5점)
<think></think> 태그 내 추론 과정<answer></answer> 태그 내 최종 답변Penalty Control: 극단적 행동 방지를 위한 적응적 페널티
P_control = 0.1 * [
1_direct * I(r < θ) + # 직접 답변에 페널티 (r < 0.2일 때)
1_high * I(r ≥ θ) # 고해상도 요청에 페널티 (r ≥ 0.2일 때)
]
여기서 r = C_direct / (C_direct + C_high)
자동 데이터 분류
기반 모델(Qwen2.5-VL)을 사용하여 20K 샘플을 자동 분류
평가 벤치마크 분류
기반 모델: Qwen2.5-VL-7B-Instruct
성능 평가
효율성 평가

| 벤치마크 | 고해상도 요청 비율 |
|---|---|
| ChartQA (Strong OCR) | 79% |
| OCRBench (Strong OCR) | 62% |
| MME (Weak OCR) | 31% |
| DocVQA (Weak OCR) | 7% |
KEY INSIGHTS

기존 Efficient VLM 대비
| Method | ChartQA | OCRBench | Average Performance | Token 사용량 |
|---|---|---|---|---|
| FastV | 72.6% | 75.8% | 95.8% | 50% |
| SparseVLM | 73.2% | 75.6% | 92.2% | 50% |
| VisionThink | 79.8% | 80.8% | 102% | 51.3% |
추론 속도 비교
| 벤치마크 | 속도 변화 |
|---|---|
| DocVQA | 기존 대비 2배 이상 빠름 |
| MME / POPE | 약 1/3 시간 단축 |
| ChartQA | 고해상도 요청 증가 → 시간 증가 |
130K 데이터셋 결과
| Metric | Baseline | VisionThink | Improvement |
|---|---|---|---|
| MathVista | 68.2 | 71.2 | +4.4% |
| MMVet | 61.6 | 69.5 | +12.8% |
해상도 제약
도구 한계
데이터 편향
평가 한계
Cold-Start 부재의 한계
지연 시간 이슈
훈련 복잡성
Multi-Scale Resolution
`# 다단계 해상도 요청 시스템
resolution_levels = [0.25, 0.5, 0.75, 1.0]
action_space = ["direct_answer", "request_higher", "request_crop", "request_zoom"]`
Dynamic Cropping Integration
Multi-Objective Optimization
*# 다목적 최적화 보상 함수*
R_total = α*R_accuracy + β*R_efficiency + γ*R_user_satisfaction - δ*P_latency
Hierarchical Decision Making
Tool-Augmented VLM
Multi-Turn Complex Reasoning
"정말 모든 VLM에 적용 가능한가?"
현재는 Qwen2.5-VL에서만 검증됨. 다른 VLM 아키텍처에서의 일반화는 추가 연구 필요하며, 각 모델의 토큰 처리 방식에 따라 효과가 달라질 수 있음.
"2단계 처리의 지연 시간이 실용적인가?"
OCR 태스크에서는 정확도 향상이 지연 시간을 상쇄하지만, 실시간 응용에서는 한계. 병렬 처리나 캐싱 전략으로 개선 가능.
"강화학습 없이는 불가능한가?"
SFT 비교 실험에서 RL이 더 스마트한 의사결정을 보임. SFT는 과도한 고해상도 요청 경향을 보여 효율성 저하.
"실제 사용자 만족도는 어떤가?"
논문에서는 자동 평가에 집중. 실제 사용자 연구를 통한 UX 평가가 필요하며, 지연 시간과 정확도 간 트레이드오프에 대한 사용자 선호도 조사 필요.
"다른 효율적 VLM 기법과 결합 가능한가?"
VisionThink는 샘플 레벨 압축 결정 프레임워크로, 기존 토큰 레벨 압축 기법(FastV, SparseVLM)과 호환 가능. 상호 보완적 효과 기대.
기존 방법들
→ 모든 샘플에 고정된 압축 비율을 적용한다. FastV와 SparseVLM은 어텐션 스코어를 기반으로 사전 정의된 임계값에 따라 토큰을 제거한다.
VisionThink
→ 각 샘플의 복잡도와 요구사항에 따라 동적으로 압축 여부를 결정한다. 모델이 스스로 판단하여 필요시에만 고해상도를 요청하는 적응적 접근법을 취한다.
기존 방법들
→ 입력 후 압축 방식으로, 먼저 전체 이미지를 처리한 후 중복 토큰을 제거한다. 이미 계산된 정보를 버리는 방식이다.
VisionThink
→ 입력 전 압축 방식으로, 처음부터 압축된 저해상도 이미지를 입력하고, 필요시에만 원본을 요청한다. 불필요한 계산을 원천적으로 방지한다.
기존 방법들
→ 고정된 압축으로 인해 OCR 관련 벤치마크에서 상당한 성능 저하를 겪는다. ChartQA에서 FastV는 91.0%, SparseVLM은 91.7%의 성능만 달성한다.
VisionThink
→ OCR이 필요한 경우 고해상도를 요청하여 성능 손실을 최소화한다. ChartQA에서 100% 성능을 유지하며, 전체적으로 102%의 평균 성능을 달성한다.
VisionThink는 "적응적 해상도 선택"이라는 혁신적 아이디어를 강화학습으로 구현하여 VLM의 효율성과 성능 사이의 딜레마를 해결했다. 특히 LLM-as-Judge 전략을 통해 일반 VQA 태스크에 강화학습을 성공적으로 적용한 점이 주목할 만하다.
하지만 2단계 처리의 지연 시간, 해상도 선택의 단순함, 훈련 복잡성 등의 한계는 여전히 해결해야 할 과제다. 이러한 한계점들은 오히려 향후 연구의 명확한 개선 방향을 제시한다는 점에서 의미가 있다.
→ VLM이 인간처럼 상황에 맞게 필요한 정보의 해상도를 동적으로 조절할 수 있는 지능적 시스템의 가능성을 보여주었다.