기존의 task‑specific 모델과 달리, Generalist AI는 하나의 모델이 다양한 환경과 작업에 대해 적응하고 일반화할 수 있음이 목표
여러 modality를 동시에 처리하는 능력을 갖춘 Foundation 모델들의 통합 → 복잡한 작업들을 하나의 agent가 수행 가능
5.2 Simulators
실제 로봇 데이터의 한계 극복 → 안전하고 효율적인 학습 및 평가를 위해 물리 기반 및 가상 환경 시뮬레이터 제공
로봇 정책 학습, Embodied AI Agent의 테스트, 벤치마크 평가를 위해 사용됨.
실제 환경의 물리적 특성과 다양한 작어 상황을 시뮬레이션 → 로봇이 다양한 시나이로에서 성능을 검증할 수 있게 함
6. Challenges and Future Directions
6.1 Overcoming Data Scarcity in Training Foundation Models for Robotics
로봇 관련 대규모 데이터셋 부족, 인터넷 기반 데이터와 로봇 작업 데이터 간의 도메인 불일치
Unstructured Play Data
로봇이 비지도 방식으로 수집한 다양한 play 데이터를 활용 → 자연스러운 행동 패턴을 학습
Data Augmentation
inpainting 등 다양한 데이터 증강 기법과, VLM을 통한 추가 데이터 생성 기법 도입 → 부족한 로봇 데이터를 보완
Synthetic Data Generation
고품질 시뮬레이터를 이용하여 합성 데이터 생성 → 실제 환경의 다양한 상황을 모사하고 학습에 활용
6.2 Real Time Performance
Foundation 모델들은 파라미터 수와 계산량이 매우 큼 → 로봇의 실시간 제어 및 의사결정에 적용하기 어려울 수 있음
모델 경량화
효율적인 네트워크 설계와 파라미터 최적화를 통해 모델의 크기를 줄이고, 추론 속도를 높이는 연구가 필요
하드웨어 가속
GPU, TPU와 같은 전문 하드웨어를 활용하여 추론 속도를 개선하고, 실시간 처리를 가능하게 하는 방법을 모색
6.3 Limitations in Multimodal Representation
텍스트, 이미지, 센서 데이터 등 서로 다른 modality 간 정보를 효과적으로 결합하고 정렬하는 데 한계 존재
modality간 간 정보 융합을 위한 새로운 네트워크 아키텍처 및 학습 기법이 필요하며, 각 modality의 특성을 유지하면서 상호 보완할 수 있는 방법을 연구 필요
6.4 Uncertainty Quantification
Instance-Level Uncertainty
개별 입력에서 발생하는 모호성(e.g. LLM의 hallucination 문제 등)
Distribution-Level Uncertainty
훈련 데이터와 실제 환경 간의 분포 차이로 인한 불확실성이 존재
Calibration 및 Distribution Shift
모델의 출력 확률을 신뢰할 수 있도록 보정하는 방법과, 환경 변화에 따른 성능 저하 문제를 해결하는 연구 필요
6.5 Safety Evaluation
로봇 시스템의 안전성은 필수적이며, 배포 전 안전 테스트와 실시간 모니터링, 이상치(out-of-distribution) 감지 등의 체계적인 평가 방법 필요
Pre-deployment Safety Tests
로봇 시스템을 실제 환경에 투입하기 전에, 시뮬레이션 및 오프라인 테스트를 통해 안전성을 검증
Runtime Monitoring
로봇 운용 중, 실시간으로 시스템의 상태를 모니터링하고 이상 동작을 탐지하는 기술 필요
Out-of-Distribution Detection
훈련 데이터에 포함되지 않은 새로운 상황에 대해, 모델의 불확실성을 평가하고 적절한 대응 전략 마련
6.6 Using Existing Foundation Models as Plug-and-Play or Building New Foundation Models for Robotics
현재 존재하는 기초 모델을 그대로 활용할지, 아니면 로봇 특화 기초 모델을 새로 구축할지에 대한 전략적 선택 문제를 다룸
기존 모델을 재사용할 경우, 비용과 데이터 수집 측면에서 이점이 있지만, 로봇의 특수한 요구를 모두 충족시키지 못할 수 있음
로봇에 최적화된 새로운 기초 모델을 구축하면 성능 향상이 기대되나, 그만큼 데이터 수집과 학습 비용이 증가
6.7 High Variability in Robotic Settings
로봇이 작동하는 물리적 환경, 플랫폼, 작업 유형 등은 매우 다양하여, 하나의 모델로 모든 상황에 대응하기 어려운 문제점이 있음
보다 광범위한 데이터 수집, 도메인 적응(Domain Adaptation) 기술, 그리고 강건한 모델 설계가 필요
6.8 Benchmarking and Reproducibility in Robotics Settings
로봇 연구에서는 실험 환경과 데이터셋의 차이로 인해 연구 결과의 재현성 및 객관적인 비교가 어려움
표준 벤치마크 및 평가 프로토콜 마련, 공동 데이터셋 공유, 그리고 평가 기준의 표준화 등 → 재현성을 높이고, 연구 성과를 객관적으로 비교할 수 있도록 해야 함
7. Conclusion
논문은 인터넷 규모의 데이터를 통해 사전 학습된 Foundation 모델들(LLM, Vision Transformer, VLM, Embodied Models, Visual Generative Models 등)이 로봇 시스템에 적용될 경우, 전통적인 task‑specific 모델들이 가지는 한계를 극복하고 전반적인 자율성, 범용성, 그리고 적응성을 크게 향상시킬 수 있음을 보여줌
Foundation 모델들은 인식(Perception), 의사결정 및 계획(Decision-making & Planning), 제어(Control) 뿐만 아니라, 객체의 행동 가능성(affordance), 미래 상태 예측, 그리고 Embodied AI와 같은 영역에 걸쳐 통합적으로 적용될 수 있음.
이를 통해 로봇은 단일 모델로 여러 작업을 수행할 수 있는 범용 에이전트로 발전할 가능성 존재