[논문] Mamba3

타샤's 월드·2026년 3월 28일

2026년 3월 16일 최신 논문

exponential-Euler

논문 소개

대규모 언어 모델(Large Language Models, LLMs)의 비약적인 발전 속에서 추론 단계의 계산 효율성은 모델의 실질적인 활용 가치를 결정짓는 핵심 지표로 부상하였습니다. 기존의 트랜스포머(Transformer) 아키텍처는 뛰어난 성능을 보장하지만, 시퀀스 길이에 따른 연산량의 제곱 급수적 증가와 선형적인 메모리 점유라는 구조적 한계로 인해 대규모 추론 환경에서 막대한 비용을 발생시킵니다. 이를 극복하기 위해 제안된 선형 복잡도 모델들은 연산 효율성을 얻는 대신 상태 추적(State Tracking) 능력이나 전반적인 모델 품질을 희생하는 경향이 있었으며, 이론적 효율성이 실제 하드웨어 가속으로 이어지지 못하는 문제도 안고 있었습니다. Mamba-3는 이러한 한계를 극복하고자 '추론 우선 관점(Inference-first perspective)'을 견지하며, 상태 공간 모델(State Space Model, SSM)의 원리에 기반한 세 가지 핵심 방법론적 혁신을 제안합니다.

첫째로, 시스템의 동역학을 보존하기 위해 지수-사다리꼴 이산화(Exponential-Trapezoidal Discretization) 기법을 도입하여 기존의 방식보다 훨씬 정교하고 표현력이 풍부한 순환 구조를 유도해냈습니다. 둘째로, 상태 업데이트 규칙에 복소수(Complex-valued) 체계를 적용함으로써 위상(Phase) 정보를 활용한 고도화된 상태 추적이 가능해졌으며, 이는 문맥 내 구조적 정보를 장기적으로 유지하는 데 결정적인 역할을 합니다. 마지막으로 도입된 다중 입력 다중 출력(Multi-Input, Multi-Output, MIMO) 정식은 디코딩 지연 시간을 늘리지 않으면서도 모델의 용량을 효과적으로 확장하여 성능을 극대화합니다. 특히 MIMO 구조는 기존의 단일 입력 단일 출력(Single-Input Single-Output, SISO) 알고리즘을 블랙박스로 활용할 수 있어 하드웨어 친화적인 구현이 가능하며, 연산 오버헤드를 최소화하면서도 복잡한 시퀀스 의존성을 모델링합니다.

1.5B 파라미터 규모의 실험에서 Mamba-3는 기존 최신 모델인 Gated DeltaNet 등을 상회하는 정확도를 기록하였으며, 이전 세대인 Mamba-2 대비 절반의 상태 크기(State Size)만으로도 동등한 수준의 퍼플렉서티(Perplexity)를 달성하는 성과를 거두었습니다. 결과적으로 Mamba-3는 검색(Retrieval)과 상태 추적 능력을 비약적으로 향상시켜 성능과 효율성 사이의 파레토 프런티어(Pareto Frontier)를 새롭게 확장하였으며, 긴 문맥 처리가 필수적인 차세대 지능형 시스템의 강력한 아키텍처적 토대를 마련하였습니다.

논문 초록(Abstract)

추론 시간 계산(inference-time compute)의 스케일링은 대규모 언어 모델(LLM) 성능의 중요한 동인으로 부상하였으며, 이에 따라 모델 품질과 더불어 추론 효율성이 모델 설계의 핵심 초점이 되었습니다. 현재의 트랜스포머(Transformer) 기반 모델은 강력한 모델 품질을 제공하지만, 이차 복잡도(quadratic)의 계산량과 선형(linear) 메모리 요구량으로 인해 추론 비용이 많이 듭니다. 이는 선형 계산량과 상수(constant) 메모리 요구량을 갖춘 서브-쿼드라틱(sub-quadratic) 모델의 개발을 촉진했습니다. 그러나 최근의 많은 선형 모델은 알고리즘 효율성을 위해 모델 품질과 성능을 희생하며, 상태 추적(state tracking)과 같은 태스크에서 실패하는 모습을 보입니다. 또한, 이들의 이론적으로 선형적인 추론은 실제 하드웨어상에서 여전히 비효율적입니다. 본 논문에서는 추론 우선적 관점에 따라, 선형 모델의 상태 공간 모델(SSM) 관점에서 영감을 얻은 세 가지 핵심 방법론적 개선 사항을 소개합니다. 본 연구는 (1) SSM 이산화(discretization)에서 도출된 더 표현력이 높은 재귀(recurrence), (2) 더 풍부한 상태 추적을 가능하게 하는 복소수 값(complex-valued) 상태 업데이트 규칙, 그리고 (3) 디코딩 지연 시간(decode latency)을 늘리지 않으면서 모델 성능을 향상시키는 다중 입력 다중 출력(MIMO) 공식을 결합했습니다. 구조적 개선과 함께 Mamba-3 모델은 검색(retrieval), 상태 추적 및 다운스트림 언어 모델링 태스크 전반에서 상당한 성능 향상을 달성했습니다. 1.5B 스케일에서 Mamba-3는 차순위 모델인 Gated DeltaNet과 비교해 평균 다운스트림 정확도를 0.6 퍼센트 포인트 향상시켰으며, Mamba-3의 MIMO 변체는 정확도를 1.2 포인트 추가로 향상시켜 총 1.8 포인트의 이득을 얻었습니다. 상태 크기 실험 전반에서 Mamba-3는 이전 모델 상태 크기의 절반만 사용하고도 Mamba-2와 대등한 퍼플렉시티(perplexity)를 달성했습니다. 본 평가 결과는 성능-효율 파레토 프런티어(Pareto frontier)를 확장하는 Mamba-3의 능력을 입증합니다.

Mamba-3 - 피벗 분석의 정점 (지능의 고도화)

복소수(i) 상태 업데이트: 방향성을 가진 모델

• 핵심: 내부 상태 $h$ 를 실수에서 복소수 공간으로 확장.
• 복소수 평면에서 값을 곱하는 행위는 곧 회전을 의미함

보행자의 움직임은 직선이 아닌 회전의 연속임. Mamba-3는 복소수 연산을 통해 보행자가 꺾는 방향과 각도를 수식적으로 가장 정교하게 보존할 수 있음.

• 미세한 피벗 구간에서도 물리적 회전 관성을 놓치지 않고 추적할 수 있음.

Multi-head State

• 핵심: Transformer의 Multi-head 구조를 SSM에 이식.
• 위치, 속도, 가속도 등 서로 다른 피처를 독립적인 해드에서 개별 처리.
• 단순 평균 오차로는 잡기 힘든 '이상행위'를 다각도에서 동시 감시하여 이상 징후 포착률 극대화.

Mamba-3 - 데이터 효율성

MIMO & Latency Optimization: "똑똑하지만 더 빠르게"
• MIMO (Multi-Input Multi-Output): 여러 입력을 병렬로 처리하여 데이터 처리량 극대화.
• 최적화: 멀티헤드 등 다소 복잡한 구조를 추가했음에도, 하드웨어 최적화를 통해 추론 Latency를 늘리지 않음.

이를 통해 스마트 빌딩 내 수천 명의 보행자 데이터를 실시간으로 지연 없이 분석 가능할 것

The Conclusion
• 기술적 혁신: $O(N^2)$ 의 연산 지옥에서 벗어나 선형적( $O(N)$ ) 효율성 달성.
• 학술적 기여: 복소수 기반의 회전 추적을 통해 보행자 피벗 분석의 새로운 기준 제시.
• 기대 효과: 저사양 에지 디바이스에서도 구동 가능한 고성능 실시간 이상 탐지 시스템 구현의 근거 마련.

타샤's 월드

그때 그때 꽂힌것 하는 개발블로그

이전 포스트

[논문]Mamba

다음 포스트