VisionZip: Longer is Better but Not Necessary in Vision Language Models
dvlab-research/VisionZip: Official repo for "VisionZip: Longer is Better but Not Necessary in Vision Language Models"

1. Introdution

시각적 신호를 텍스트 의미와 통합하기 위해 기존 Vision-Language Models(VLMs)은 일반적으로 순차적인 시각 표현 방식을 사용한다. 이 과정에서 이미지는 시각적 토큰(Visual Tokens)으로 변환되어 LLM의 디코더에 의해 처리된다. 그러나 이러한 VLM의 우수한 성능은 주로 많은 수의 시각적 토큰에 의존한다. 예를 들어, LLaVA-NeXT는 672x672 해상도의 이미지를 처리할 때 576x5=2880개 이상의 시각적 토큰을 생성한다. 반면 텍스트 토큰은 보통 100개를 조금 넘는 수준에 불과하다. 이러한 과도한 시각적 토큰은 전체 시스템의 메모리 사용량과 계산량을 크게 증가시킨다.

기존 연구들에 따르면 이미지에 포함된 정보는 텍스트보다 훨씬 희소하다는 점이 반복적으로 확인되었다. 따라서 자연스럽게 "모든 시각적 토큰이 정말 필요한가?"라는 의문이 제기된다.

Figure 2


저자는 이 질문에 답하기 위해 CLIP 및 SigLIP 모델에서 생성된 시각적 토큰을 분석하는 파일럿 연구를 수행했다. 연구 결과, 소수의 토큰만이 높은 attention을 받으며 주요 정보를 담고 있다는 사실을 확인했다. 이는 시각적 토큰에 상당한 중복성이 존재한다는 점을 시사한다.

이러한 관찰에 기반하여, 저자는 LLM을 위해 더 유익한 시각적 토큰을 추출하는 텍스트 비의존적 방법인 VisionZip을 제안한다. VisionZip은 훈련 없이(training-free) 또는 미세 조정하거나 처음부터 훈련하는 방식에 모두 적용할 수 있다.

Figure 1


실험 결과, VisionZip은 훈련 없이도 기존 방법에 비해 성능과 처리 속도 모두에서 상당한 개선을 달성했다. 구체적으로, LLaVA-NeXT 7B 모델에서는 성능을 95% 유지하면서도 pre-filling 시간을 8배 단축시켰다. 또한, LLaVA-NeXT 13B 모델이 7B 모델보다 더 나은 성능과 빠른 추론 속도를 제공하도록 지원한다.
(참고: pre-filling 시간은 모델이 첫 번째 토큰을 생성하기 위해 입력 토큰을 처리하고 KV 캐시를 초기화하는 데 걸리는 시간을 의미한다.)

연구 질문

시각적 토큰의 중복성을 효과적으로 줄이면서도 Vision-Language Model의 성능을 유지하거나 향상시킬 수 있을까?

2. VisionZip

2.1 Preliminary


VLM(Vision Language Model)의 아키텍처는 일반적으로 visual encoder, modality projector, 그리고 LLM으로 구성된다.
VLM의 전체 계산 복잡성은 아래와 같이 표현된다.

Total FLOPs=T×(4nd2+2n2d+2ndm)\text{Total FLOPs} = T \times (4nd^2 + 2n^2d + 2ndm)

여기서

  • TT: Transformer 레이어 수
  • nn: 시퀀스 길이
  • dd: hidden dimension 크기
  • mm: FFN(intermediate size) intermediate 크기

를 의미한다.

이 방정식은 계산 복잡성이 시퀀스 길이 nn에 의해 크게 좌우됨을 보여준다.
VLM 작업에서 시퀀스의 길이는 다음과 같이 정의된다.

n=nsys+nimg+nquestionn = n_{\text{sys}} + n_{\text{img}} + n_{\text{question}}

이 중에서 nimgn_{\text{img}}는 나머지 두 부분보다 훨씬 큰 경우가 많다. 따라서 nimgn_{\text{img}}를 줄이는 것은 VLM의 효율성을 개선하는 데 핵심적인 역할을 한다.

2.2 Redundancy Observation

저자는 무작위로 선택된 이미지를 대상으로, Vision Encoder의 -2 레이어에서 각 토큰의 Attention 가중치를 시각화하였다.

이 결과, Attention 가중치가 낮은 대부분의 시각적 토큰들이 유의미한 정보를 거의 제공하지 않으며 상당한 중복성을 추가한다는 것을 발견했다.
반면, 소수의 시각적 토큰만이 상당한 정보를 포함하며 주목할 만한 Attention을 받았다. 이를 논문에서는 dominant visual tokens라고 명명하였다.

따라서, 논문은 dominant visual tokens만 선택하고 정보량이 적은 토큰은 제거함으로써 전체 토큰 수를 줄이는 전략을 제안했다.

2.3 Information Visual Token Zip

Dominant Token Selection


정보가 풍부한 비전 토큰만 유지하는 것이 핵심 과제이다. 이를 위해 저나는 비전 인코더 내에서 각 토큰의 중요도를 평가하기 위해 Attention Score를 활용하였다.

  • CLS 토큰이 있는 모델(예: CLIP):
    CLS 토큰의 Attention Score를 기반으로 중요한 시각적 토큰을 식별한다.

  • CLS 토큰이 없는 모델(예: SigLIP):
    각 토큰이 시퀀스 내 다른 토큰들로부터 받는 평균 Attention Score를 계산하여, 높은 점수를 가진 토큰을 key visual tokens로 간주한다.

Contextual Tokens Merging


dominant tokens은 대부분의 중요한 시각 정보를 포함하지만, 작지만 잠재적으로 중요한 정보 손실을 방지하기 위해 non-dominant 토큰을 병합하는 방법을 제안했다.

  • Key는 Self-attention 계산 시 입력 임베딩에 학습된 가중치 WkW_k를 곱해 생성되며, 토큰의 정보를 요약한다. (참고: Q, V도 같은 역할을 수행하지만 Q는 '무엇을 찾을지', V는 '찾아낸 정보'를 전달하는 데 초점이 맞춰져있기에 K를 이용한 것으로 보인다.)
  • 저자는 non-dominant 토큰을 target과 merge tokens로 uniform sampling하여, Key 유사도를 기반으로 유사한 정보를 포함하는 토큰들을 병합하였다. 이를 통해 새로운 contextual tokens를 생성하였다.

2.4 Efficient Training

이 방법은 LLM에 입력되는 토큰 길이를 최대 10배까지 감소시킨다.
하지만 이러한 토큰 감소는 모듈 간 불일치를 초래할 수 있다. 이를 보완하기 위해, 최소한의 instruction data를 활용하여 multimodal projector만 효율적으로 미세 조정하였다.

  • 데이터 사용량: LLaVA-1.5 데이터의 1/10만 사용
  • 훈련 시간: 8개의 Nvidia A800 GPU에서 30분 만에 완료

2.5 Usage VisionZip

VisionZip은 기존 효율적인 VLM이 처리하기 어려웠던 multi-turn 대화에도 적용 가능하다.
또한, 텍스트에 독립적이므로 모든 기존 LLM 가속 알고리즘과 호환된다.

이를 통해 런타임과 메모리를 3배 절약하면서도 원래 모델 성능의 90% 이상을 유지할 수 있었다.

3. Experiments

3.1 Effectiveness on Image Understanding

Vanilla 모델의 정확도를 100% 상한선으로 설정하고, 192, 128, 64의 세 가지 토큰 수 구성을 활용하여 FastVSparseVLM과 비교함으로써 VisionZip의 이점을 평가한다.

그 결과, 전체적인 성능에서 VisionZip은 FastV와 SparseVLM보다 우수한 성능을 보였다. 특히 주목할 만한 점은, 저자들이 언급했듯이, MMVeT 및 MMMU와 같은 벤치마크에서 VisionZip을 통해 토큰 수를 줄일 경우 성능 저하를 방지할 뿐만 아니라 성능이 오히려 향상된다는 점이다.


또한, LLaVA-NeXT와 같은 더 많은 시각적 인코더를 사용하는 모델과 Mini-Gemini 같은 다른 아키텍처에서도 VisionZip의 효과성이 추가적으로 입증되었다.

3.2 Effectiveness on Video Understanding


VisionZip은 기존 SOTA 방법인 SparseVLM을 뛰어넘는 성과를 기록하며, 비디오 이해 작업에서도 탁월한 성능을 입증했다.

3.3 Effective Analysis


VisionZip은 추론 과정에서 CUDA 메모리 사용량을 크게 절감할 뿐만 아니라, 속도 면에서도 명확한 장점을 보였다.

4. Analysis and Discussion

4.1 Reasons of Redundancy in Visual Tokens

Visualization of the Redundancy


Fig. 5는 레이어에 따른 attention 변화의 양상을 보여준다. 초기 레이어에서는 attention이 이미지 전체에 고르게 분포하지만, 중간 레이어로 갈수록 소수의 토큰으로 급격히 집중된다. 깊은 레이어에서는 주요 토큰에 attention과 정보가 더욱 집중되며, 23번째 레이어에서 최대 집중도를 나타낸다. 이는 VLM을 위한 시각적 토큰 추출 과정에 사용된다. 반면, 마지막 레이어에서는 attention이 더 분산되는데, 이는 contrastive loss를 통해 CLIP의 텍스트 브랜치와 정렬되면서 원래 이미지의 표현력이 제한되기 때문이다. 따라서 VLM은 마지막 레이어가 아닌, 마지막에서 두 번째(-2) 레이어의 출력을 사용한다.

Explanation

Vision Encoder는 self-attention을 통해 토큰 간 정보를 통합하는 트랜스포머 아키텍처를 기반으로 한다. 저자들은 레이어가 깊어질수록 모델이 모든 토큰의 정보를 활용하기보다 일부 프록시 토큰에 집중하여 "shortcut"을 사용하는 경향이 있다고 주장한다. 특히 CLS 토큰이 존재할 경우 이러한 경향은 더욱 강해진다.
이를 논문은 softmax 함수의 미분으로 설명한다.

softmax(zi)=ezij=1nezj\text{softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^n e^{z_j}}
softmax(zi)zi=softmax(zi)(1softmax(zi))\frac{\partial \text{softmax}(z_i)}{\partial z_i} = \text{softmax}(z_i) \cdot (1 - \text{softmax}(z_i))

z 값이 클수록 기울기는 기하급수적으로 증가하고, z 값이 작을 경우 기울기는 무시할 수 있을 정도로 작아진다. 이 특성은 낮은 attention 영역을 더욱 낮추고 높은 attention 영역을 두드러지게 만들어, 결과적으로 몇 개의 토큰에 정보가 집중된다. 이는 LLM 추론에서도 유사한 양상을 보이며, 이를 "Attention Sink"라고 명명했다(Xiao et al., 2024). 이와 유사하게, semantic segmentation에서는 이를 "global token"으로 언급한다(Shao et al., 2024).

4.2 Why VisionZip Outperforms Pervious Work?

Text-Relevant Efficient VLM

FastV와 SparseVLM과 같은 기존 VLM 가속화 방법은 텍스트와 관련된 시각적 정보를 유지하는 방식에 의존한다.

Misallignment Due to the Pre-group Knowledge


그러나 이러한 방식으로 선택된 시각적 토큰은 종종 충분한 정보를 포함하지 못한다. 이는 비전 인코더가 attention이 높은 소수의 토큰에 정보를 집중시키면서 나머지 토큰의 정보량을 제한하기 때문이다. 결과적으로 특정 세부 정보를 나타내야 할 토큰들이 프록시 토큰으로 그룹화되면서 원래 맥락 정보가 손실된다.

Fig. 6(b)에 따르면, 이러한 프록시 토큰은 이미지 주요 피사체 근처가 아닌 주변 또는 배경 영역에 위치하는 경향이 있다. 이를 검증하기 위해 논문에서는 TextVQA 벤치마크와 SparseVLM을 통해 64개의 토큰을 추출하는 두 가지 실험을 수행했다.

1. 실험 1 (Ex1):

  • 총 576개 토큰 중 비전 인코더에서 attention이 가장 높은 50개를 마스킹하고, 나머지 526개의 토큰에서 SparseVLM을 사용하여 최종 64개를 선택함.
  • 결과: 성능이 약 9% 감소.
  1. 실험 2 (Ex2):
    • VisionZip이 선택한 상위 128개 토큰을 SparseVLM에 제공해 최종 64개 토큰을 필터링.
    • 결과: 성능이 약 2.6% 향상.

이 결과는 텍스트와 관련된 시각적 토큰이 비전 인코더가 지식을 집약하는 토큰과 일치 하지 않음을 추가로 검증한다.

4.3 The adavantage of the VisionZip

Easy to deployment

VisionZip은 시각적 토큰 수를 줄인 뒤 이를 직접 LLM에 투영하여 LLM 얕은 레이어에서의 과도한 계산과 메모리 소모를 방지한다.

Fig. 7 및 Table 6에 따르면, VisionZip은 기존 양자화 기술과도 호환되며, Table 7에서 기존 13B 모델보다 2배 빠른 추론 속도를 제공한다. 또한 7B 모델에 비해 효율성과 성능 모두 뛰어나다.

Advantage on multi-turn conversation


현재의 VLM은 실제 응용 프로그램을 더 잘 지원하기 위해, 이전 답변을 KV 캐시에 저장하여 multi-turn 대화를 가능하게 하고, 이전 대화를 다시 처리할 필요성을 줄인다. 하지만, 기존 텍스트 연관 처리 방식은 이전 질문과 관련된 시각적 토큰만 KV 캐시에 저장하여 현재 대화와 관련성이 낮은 경우가 많다. 반면, VisionZip은 텍스트와 무관하게 가장 유익한 시각적 토큰을 선택하기 때문에 multi-turn 대화에서도 높은 효율성을 제공한다.

5. Conclusion

이 논문은 VLM에서 시각적 토큰의 중복 문제를 분석하고, 이를 해결하기 위한 간단한 방법인 VisionZip을 제안했다. VisionZip은 시각적 토큰 수를 줄이면서도 모델 성능을 유지하여 계산 효율성을 크게 향상시킨다. 특히, 이 방법은 텍스트와 무관하기 때문에 multi-turn 대화와 같은 다양한 작업에 효과적으로 적용 가능하다.
또한, VisionZip은 VLM의 성능을 더욱 향상시키고, 더 긴 비디오 시퀀스를 처리할 수 있는 중복성 감소 비전 인코더 개발의 미래 방향을 제시한다.

참고 문헌

Yang, S., Chen, Y., Tian, Z., Wang, C., Li, J., Yu, B., & Jia, J. (2024). VisionZip: Longer is Better but Not Necessary in Vision Language Models (No. arXiv:2412.04467). arXiv. https://doi.org/10.48550/arXiv.2412.04467
Chen, L., Zhao, H., Liu, T., Bai, S., Lin, J., Zhou, C., & Chang, B. (2024). An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models (No. arXiv:2403.06764). arXiv. https://doi.org/10.48550/arXiv.2403.06764
Zhang, Y., Fan, C.-K., Ma, J., Zheng, W., Huang, T., Cheng, K., Gudovskiy, D., Okuno, T., Nakata, Y., Keutzer, K., & Zhang, S. (2024). SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference (No. arXiv:2410.04417). arXiv. https://doi.org/10.48550/arXiv.2410.04417
Xiao, G., Tian, Y., Chen, B., Han, S., & Lewis, M. (2024). Efficient Streaming Language Models with Attention Sinks (No. arXiv:2309.17453). arXiv. https://doi.org/10.48550/arXiv.2309.17453
Shao, T., Tian, Z., Zhao, H., & Su, J. (2025). Explore the Potential of CLIP for Training-Free Open Vocabulary Semantic Segmentation. In A. Leonardis, E. Ricci, S. Roth, O. Russakovsky, T. Sattler, & G. Varol (Eds.), Computer Vision – ECCV 2024 (pp. 139–156). Springer Nature Switzerland. https://doi.org/10.1007/978-3-031-73016-0_9

0개의 댓글