
Key Point: 고정된 preceding context 대신 동적으로 가장 관련성 높은 historical context를 검색하여 선택
고정 Context 방식의 문제점
전체 히스토리 사용의 문제점
기존 RAG의 한계
"어떻게 현재 utterance와 가장 관련성 높은 historical context를 동적으로 검색하고 선택하여 conversational LLM-ASR 성능을 향상시킬 수 있는가?"
→ Multi-modal Retrieval-and-Selection 방법론으로 해결하자!

MARS는 3단계 파이프라인으로 구성된다:

Speech Modality Retrieval
Text Modality Retrieval

핵심 아이디어
알고리즘 단계
Normalization:
Ideal Points:
,
Distance Calculation: Euclidean distance to ideal and negative ideal points
Relative Closeness:
Training Strategy
Decoding Options
MLC-SLM Dataset (Interspeech 2025 Challenge)
평가 지표
Baseline 모델들
Main Results (Table 1)
| Model | Training Data | Dev MER | Test MER | 성능 개선 |
|---|---|---|---|---|
| TEA-ASLP | 179K hours | 10.62% | 9.60% | SOTA baseline |
| MARS | 1.5K hours | 8.97% | 8.35% | +13.0% 개선 |
핵심 성과
Context Type 비교 (Table 2)
| Context Type | Dev MER | 분석 |
|---|---|---|
| None | 14.87% | Baseline |
| Context{1~2} | 13.56% | 고정 context |
| GT: Context{1~2} | 13.16% | Ground-truth context |
| MARS Best Retrieved | 8.97% | 동적 최적 context |
Ablation Study 결과 (Table 3)
| Component | Dev MER | Test MER | 기여도 |
|---|---|---|---|
| Base LLM-ASR | 12.75% | 11.04% | - |
| + Speech Retrieval | 10.24% | 9.41% | +14.7% |
| + Text Retrieval | 10.33% | 9.23% | +16.4% |
| + Multi-modal Selection | 9.77% | 8.96% | +18.8% |
| + Two-pass Decoding | 8.97% | 8.35% | +24.4% |
DTW 계산 복잡성
Retrieval Quality의 불확실성
Context Length 제한
단일 데이터셋 평가
Computational Cost 분석 부족
Baseline 비교의 한계
Efficient Similarity Search
Adaptive Retrieval Strategy
Advanced Ranking Methods
Context Quality Assessment
Multi-Domain Adaptation
Extended Task Coverage
Production Optimization
Interpretability Enhancement
MARS는 "conversational ASR을 위한 동적 context selection"이라는 새로운 패러다임을 제시한 중요한 연구다. 특히 대규모 데이터 없이도 intelligent retrieval을 통해 SOTA 성능을 달성한 것은 실용적 가치가 매우 크다.