시리즈

논문

1.Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop (CoRL 2025, Justin Kerr Kush Hari Ethan Weber Chung Min Kim Brent Yi Tyler Bonnen Ken Goldberg Angjoo Kanazawa)

Link: https://www.eyerobot.net/사람은 수동적으로 보지 않는다. 이에 영감을 받아 EyeRobot시스템을 제안.주변을 관찰할 수 있는 eyeball을 고안 - RL에 gaze policy 사용함. 이건 360도 teleoperated 데

2025년 10월 30일

2.BeBOP - Combining Reactive Planning and Bayesian Optimization to Solve Robotic Manipulation Tasks (Jonathan Styrud et.al ICRA 2024)

논문주소: https://arxiv.org/abs/2310.00971?utm_source=chatgpt.com 깃허브 레포: https://github.com/jstyrud/BeBOP Abstract 새로운 작업에 대해 손쉽게 구성될 수 있어야 함 Behavior-b

2025년 11월 3일

3.RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation(IROS 2025)

로봇 작업 계획 및 그립 감지 프레임워크 RoboDexVLM 소개.기존 방법들은 단순화되고 제한된 조작작업에 초점을 맞추어, 다양항 형태의 물체를 장기 시퀀스로 조작하는 데 필요한 복잡성을 간과함.이에 반해 다양한 형태의 크기의 물체를 파지할 수 있는 hand를 활용하

2025년 11월 6일

4.MODELING UNSEEN ENVIRONMENTS WITH LANGUAGE-GUIDED COMPOSABLE CAUSAL COM-PONENTS IN REINFORCEMENT LEARNING(ICLR 2025)_강화학습 수업 발표용 정리

Abstract RL에서 일반화는 중요한 도전 과제이다. 에이전트가 이전에 보지 못한 동역학 가진 새로운 환경을 마주할 때 그러함. 이미 알고 있는 구성 요쇼들을 재조합하여 새로운 상황을 다루는 능력에서 영감 받아서 World Modeling with Compositi

2025년 11월 10일

논문

1.Eye, Robot: Learning to Look to Act with a BC-RL Perception-Action Loop (CoRL 2025, Justin Kerr Kush Hari Ethan Weber Chung Min Kim Brent Yi Tyler Bonnen Ken Goldberg Angjoo Kanazawa)

2.BeBOP - Combining Reactive Planning and Bayesian Optimization to Solve Robotic Manipulation Tasks (Jonathan Styrud et.al ICRA 2024)

3.RoboDexVLM: Visual Language Model-Enabled Task Planning and Motion Control for Dexterous Robot Manipulation(IROS 2025)

4.MODELING UNSEEN ENVIRONMENTS WITH LANGUAGE-GUIDED COMPOSABLE CAUSAL COM-PONENTS IN REINFORCEMENT LEARNING(ICLR 2025)_강화학습 수업 발표용 정리

5.Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

6.SAGE: A SYNCHRONIZED ACTION AND GAZE ESTIMATION FRAMEWORK FOR COMPREHENSIVE HUMAN BEHAVIOR ANALYSIS

7.HD-EPIC: A Highly-Detailed Egocentric Video Dataset

8.Towards Long-Horizon Vision-Language-Action System: Reasoning, Acting and Memory

9. VIMA: General Robot Manipulation with Multimodal Prompts

10.GR00T N1: An Open Foundation Model for Generalist Humanoid Robots

11.VQ-VLA: Improving Vision-Language-Action Models via Scaling Vector-Quantized Action Tokenizers

12.LAPA: LATENT ACTION PRETRAINING FROM VIDEOS

13.PALM: Progress-Aware Policy Learning via Affordance Reasoning for Long-Horizon Robotic Manipulation

14.ReconVLA: Reconstructive Vision-Language-Action Model as Effective Robot Perceiver

15.Scaling Manipulation Learning with Visual Kinematic Chain Prediction