스트리밍 비디오 이해의 어려움
기존 방법의 한계
제안: MemStream

KV-Cache 기반 온라인 비디오 이해
왜 토큰 수를 늘리면 문제가 생기는가?
토큰이 많아지면 window 내 유사 토큰이 폭증 → key feature들이 서로 뭉침
뭉친 key feature는 질문과의 유사도가 후반 프레임에 편향되는 Recency Bias 유발
self-similarity matrix 분석 결과, 토큰 수가 많을수록 서로 다른 프레임의 대표 벡터들이 점점 유사해짐 (= 구별력 감소)
sliding window attention entropy 분석 결과, 토큰 수가 많을수록 attention이 덜 selective해짐



Layer-wise Retrieval이 불안정한 이유
일부 layer는 관련 프레임을 잘 찾지만, 다른 layer는 아예 못 찾음 (median recall = 0인 layer 존재)
내부 KV feature만으로는 fine-grained 시각 정보가 부족할 때가 많음
⇒ layer 간 retrieval 일관성을 높여줄 보완 메커니즘이 필요

전체 아이디어

컴포넌트 A: Adaptive Key Selection (AKS) for Sparse Sliding-Window Attention
컴포넌트 B: Training-free Retrieval Mixture-of-Experts (MoE)
전체 동작 Flow
실험 1: Offline Long Video QA
환경
벤치마크
먼저, 토큰 수만 늘리면 성능이 하락함을 확인

메인 실험 결과 (vs. ReKV)

분석
실험 2: Online Streaming VQA

실험 3: Ablation - 인코딩 전략

실험 4: Ablation - Retrieval 전략
Internal only vs. External only vs. MoE 비교 (Table 5)

Fusion 방법 비교 (Table 6)

실험 5: Qualitative Results

기존 KV-cache 기반 스트리밍 방법(ReKV)은 프레임당 토큰이 적어 fine-grained 정보를 잃었고, 토큰 수를 늘리면 sliding window 내 중복으로 key feature의 구별력이 떨어져 query-frame 유사도가 후반 프레임에 편향되는 recency bias가 발생하며 retrieval quality와 QA 성능이 오히려 하락하는 문제가 있었음
인접 프레임 간 중복 패치를 제거하여 key feature의 변별력을 확보하는 Adaptive Key Selection과 내부 LLM과 외부 모델의 신호를 RRF로 결합하여 레이어별 Retrieval의 불안정성을 보완하는 Retrieval MoE를 활용한 MemStream 제안
Qwen2.5-VL-7B 모델에 대해 Offline/Streaming 환경에서 대부분 ReKV 대비 높은 성능을 달성하였음
한계점