
Introduction https://arxiv.org/abs/2206.14176 - 논문 https://github.com/danijar/daydreamer - 코드 공개 Philipp Wu, Alejandro Escontrela, Danijar Hafner,
https://arxiv.org/pdf/2407.15403 - 논문 https://zhaohengyin.github.io/gsr/ - 사이트(코드 공개는 추후에 한다고 한다) 개요 Offline Imitation Learning Through Graph Search

On-policy: 정책(policy)을 평가하거나 개선할 때, 현재 학습 중인 정책 자체를 사용하여 데이터를 수집하는 방법.학습 중인 정책으로 행동을 하고, 그 데이터를 사용해 그 정책을 업데이트함.안정적이지만, 탐험(exploration)과 학습 사이 균형이 어려움

: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic ActorInternational Conference on Machine Learning (ICML), 2018저자: Tuomas
FurnitureBench라는 벤치마크에 대해 소개할 예정이다.KAIST / UC BerkeleyMinho Heo, Youngwoon Lee, Doohyun Lee, Joseph J Lim오픈소스: https://github.com/clvrai/furnitur
Skill-based RL과 Model-based RL의 장점을 합쳐 효율적인 장기 행동 계획을 구현하였다.Skil: 행동을 여러 Step 단위로 묶어 추상화한 것이다.Ex. 밀기, 집기 등Model: 동역학에 대한 이해를 담은 함수 혹은 딥러닝 모델이다.에이전트가 액

https://arxiv.org/pdf/2503.11146LAYER-WISE UPDATE AGGREGATION WITH RECYCLING FOR COMMUNICATION-EFFICIENT FEDERATED LEARNINGNeurIPS, 2025본 논문에서는 F
RoboDreamer: Learning Compositional World Models for Robot Imagination 이라는 논문이다.읽기 전에 아래 Diffusion model을 이해해야 이 논문을 이해할 수 있다.https://velog.io/@m