# RL
Robot Learning, Spring 2022
Autonomous Robots (2022) / Published: 20 March 2022Motion planning and control for mobile robot navigation using machine learning: a surveyhttps:

논문 리뷰 D2RL: Deep Dense ARCHITECTURE IN REINFORCEMENT LEARNING
기존 RL에 사용하는 신경망은 단순하게 fully-connected layer를 1~2층으로 연결하는 것으로 구성되었다. 하지만 이런 단순한 구조로 학습한 agent는 복잡하고 연속적인 state , action space 에 대한 exploration 의 한계가 명확
Offline Reinforcement Learning as One Big Sequence Modeling Problem
김태민 | Trajectory Transformer

[ CS234 ] Lecture 1 - Introduction
강화 학습에서 우리는 경험을 통해 교사 없이 행동하는 방법을 배우는 문제를 고려합니다. 강화 학습 에이전트는 세계와 상호 작용해야 하며 이를 통해 시간이 지남에 따라 누적 보상을 최대화하는 방법을 배워야 합니다.강화 학습은 Deep Q-Networks과 같은 주제의 큰

바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process)
순차적 의사결정 문제는 결국 MDP(Markov Decision Process)라는 개념을 통해 더 정확하게 표현 가능누워 있는 상태 S0일어나서 노는 상태 S1눈을 감은 상태 S2서서히 잠이 오는 상태 S3잠든 상태 S4하나의 상태에서 다른 상태로 상태 전이가 일어
바닥부터 배우는 강화학습 - 강화학습이란?
CHAPTER 1. 강화학습이란? 1.1 지도학습과 강화학습 지도학습 : 지도자의 도움을 받아서 학습 비지도학습 : 주어진 데이터를 비슷한것 끼리 묶는 것 강화학습 : 시행착오를 통해서 학습 강화학습 쉽지만 추상적인 버전 "시행착오를 통해 발전해 나가는 과정" 어
POMO : Policy Optimization with Multiple Optima for Reinforcement Learning
박나윤, 송경진 | POMO 논문리뷰
Decision Transformer: Reinforcement Learning via Sequence Modeling
김태민, 김지훈, 김민규 | Decision Transformer: Reinforcement Learning via Sequence Modeling에 대한 설명입니다.

Ensemble Bootstrapped Deep Deterministic Policy Gradient for vision-based Robotic Grasping -논문 리뷰
논문 링크

Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm - 논문 리뷰
논문 링크: https://www.semanticscholar.org/paper/Deep-Ensemble-Reinforcement-Learning-with-Multiple-Wu-Li/dcc02065f3f51a6bc4117adc431801e3be8a2362Wu,