Title : MEM: Multi-Scale Embodied Memory for Vision Language Action Models(Arxiv 2026)
논문 링크 : https://www.pi.website/download/Mem.pdf
blog: https://www.pi.website/research/memory

1. Introduction
2. Multi-Scale Embodied Memory for VLAs
2.1 Problem Factorization
- 저자들은 행동 예측 문제를 고수준(High-level)과 저수준(Low-level) 정책으로 분리하여 공식화
- Action Prediction:
- π(at:t+H,lt+1,mt+1∣ot−T:t,mt,g)≈πLL(at:t+H∣ot−K:t,lt+1,g)⋅πHL(lt+1,mt+1∣ot,mt,g)
- High-level Policy(πHL): 현재 Observation(ot)과 이전의 language memory(mt)을 입력받아, 다음 subtask instruction(lt+1)와 업데이트된 language memory(mt+1)을 생성
- Low-level Policy(πLL): goal(g), 짧은 관측 영상 시퀀스(ot−k:t), 그리고 고수준에서 내려온 subtask instruction(lt+1)를 바탕으로 실제 continuous actions(at:t+H)을 실행함.
2.2 Long-Term Memory(Language Memory)
- 장기적인 맥락(ex: 요리 단계 중 무엇을 완료했는지)을 유지하기 위해 자연어 형태의 요약본을 사용
- Self-updating Mechanism: 모델은 이전의 요약본(mt)과 현재 상황을 보고 스스로 새로운 요약본(mt+1)을 예측함. 예를 들어, "접시를 놓았다"는 기억에 "그릇을 집었다"는 정보를 추가하여 업데이트 함.
- Information Compression: LLM을 사용하여 훈련 데이터를 생성할 때, 불필요한 디테일(예: 파란 그릇, 빨간 그릇, 노란 그릇)은 버리고 핵심적인 정보(예: 그릇 3개)만 남기도록 compression을 수행. 이는 inference 속도를 높이고 데이터 분포의 차이(distribution shift)를 줄여줌.
2.3 Short-Time Separable Attention(Video Encoder)
- 미세한 동작 수정이나 팔에 의한 가려짐(self-occlusion)문제를 해결하기 위해 수 초간의 조밀한 관측 데이터를 처리.
- Space-Time Separable Attention: 모든 프레임의 한 번에 처리하면 계산량이 기하급수적으로 늘어나기 때문에, Spatial attention과 Causal-temproal Attention을 분리하여 적용.
- 매 4번째 레이어마다 Time dimension에 대한 attention을 수행하여 시간적 맥락을 주입
- 계산 복잡도를 O(n2K2)에서 O(Kn2+nK2)로 낮춤.
- Token Compression: 인코더의 마지막 단계에서는 오직 현재 타임스텝의 representation만 백본으로 전달하고 과거 프레임의 토큰은 drop, 이를 통해 메모리가 없는 모델과 동일한 수의 토큰만 처리하면서도 과거 정보를 포함하게 됨.
- Pre-trained weight 사용: 새로운 학습 파라미터를 추가하지 않고 기존 ViT의 casual attention pattern만 수정하기 때문에, 이미 잘 학습된 VLM의 가중치를 그대로 초기값으로 사용할 수 있음.
메모리가 없는 모델이란? : 기존 방식의 VLA 모델, 즉, 현재 시점의 Observation만 보고 action 추론하는 방식


2.4 Implementation Details(π0.6-MEM)
- MEM을 π0.6모델에 통합하여 구현함.
- Backbone: Gemma3-4B VLM에서 초기화되었으며, 860M 파라미터 규모의 flow-matching action expert를 함께 사용
- Proprioceptive State: 과거의 로봇 상태 정보는 텍스트 대신 continuous state embedding으로 투영하여 토큰 수를 최소화함.
- Training Strategy: Pre-training 시에는 1초 간격의 프레임 6개를 사용하며, Post-training을 통해 최대 18프레임까지 메모리 범위를 확장함.
- Real-time Constraints(RTC): Action chunking 기술을 결합하여 비동기적인 실시간 추론이 가능하도록 구현.

3. Experimental Evaluation
- 저자들은 3가지 목표를 가지고 실험을 진행함.
- (1): VLA + MEM이 최대 15분이 걸리는 Long horizon task에 대해서도 강건하게 작업을 수행할 수 있는가?
- (2): MEM이 실시간 조작 전략을 수정하게 도와주는가?
- (3): MEM의 성능은 VLA모델에 메모리를 추가하는 이전 접근 방식과 어떻게 비교되는가?

3.1 MEM Solves Tasks Requiring Long-Horzion Memory
- MEM은 최대 15분동안 지속되는 복잡한 시퀀스의 작업을 성공적으로 수행할 수 있음을 보여줌
- Recipe Setup(레시피 준비): 42개의 레시피 데이터를 학습하여, 냉장고나 수납장에서 재료와 도구를 꺼내 지정된 위치에 배치하는 작업을 수행함. 로봇은 어떤 아이템을 이미 가져왔는지 기억해야 하며, 사용 후 문을 닫는 등의 세심한 관리가 필요
- Clean Up Kitchen(주방 청소): 카운터 닦기, 설거지, 물건 정리 등을 포함하며, 비누칠을 했는지 혹은 접시의 앞뒷면ㅇ르 모두 닦았는지와 같은 세부적인 진행 상황을 기억해야 함.
- Result: 메모리가 없는 기존 π0.6모델은 이러한 장기 과제에서 매우 낮은 성공률을 보였으나, MEM은 Short-Term video Memory와 Long-term language memory의 결합을 통해 성능을 비약적으로 향상시킴.

3.2 In-Context Adaptation
- 단기 비디오 메모리를 통해 로봇이 자신의 실수나 환경 변화에 즉각적으로 대응하는 능력을 테스트하였음.
- Pick up Chopstick: 테이블 높이가 평소와 다를 때 발생하는 미세한 mis-grasp를 단기 기억으로 인지하고, 다음 시도에서 집는 높이를 조절하여 성공
- Open Fridge: 냉장고 문의 경첩 방향이 불분명할 때, 한쪽으로 당겨보고 안 열리면 단기 기억을 바탕으로 즉시 반대 방향으로 시도
- 분석: 메모리가 없는 모델은 동일한 실패 전략을 반복하는 반면, MEM은 과거의 실패를 Context로 활용하여 전략을 수정함.

3.3 Core Memory Capabilities & Ablation
- 다양한 메모리 구현 방식(Pool Memory, Proprio Memory 등)과 비교 실험을 진행함.
- No Memory: 현재 프레임만 보고 판단, 부분 관측 상황에서 무작위 선택에 의존함. -> 가장 낮은 성능
- Pool Memory: 과거 프레임을 평균(Average Pooling)하여 압축, 장기적인 위치나 개수 기억에 취약 -> 단순 작업은 가능하나 복잡한 작업에서 한계
- Proprio Memory: 로봇의 관절 상태(state)만 기억, 환경의 변화(어느 서랍에 물건이 있는지 등)를 기억 못함 -> 로봇 자신의 상태 기억 과제에만 효과적
- MEM(Ours): Video Encoder와 Compressed Language Summary를 모두 사용 -> 모든 테스트 항목에서 SOTA 달성

3.4 Additional Experiment
![업로드중..]()
4. Conclusion
- 장기 과제 해결
- In-Context Adaptation