# Policy gradient

6개의 포스트
post-thumbnail

[HUFS RL] 강화학습 : Reinforcement Learning: Policy Gradient (REINFORCEMENT)

강화학습 정의 : 주어진 환경(environment)에서 에이전트(Agent)가 최대 보상(Reward)를 받을 수 있는 활동(Action)을 할 수 있도록 Policy를 학습하는 것! 환경(Environemt) : 에이전트가 액션을 취하는 환경을 말합니다. 슈퍼마리

2022년 2월 23일
·
0개의 댓글
·
post-thumbnail

Asynchronous Episodic Deep Deterministic Policy Gradient: Towards Continuous control in Computationally Complex Environments -논문 리뷰

논문 출처: https://arxiv.org/abs/1903.00827오늘은 이전에 소개한 Prioritized-Experience-Replay 처럼 Sample에 우선순위를 두어 Data-Efficient 를 높인 논문을 소개하겠다.Prioritized-Ex

2022년 2월 7일
·
0개의 댓글
·
post-thumbnail

강화학습 개념정리(4)

Intro to Policy Optimization

2021년 7월 19일
·
0개의 댓글
·
post-thumbnail

강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based

미리 말하자면, 위 분류는 완벽하지 않다. RL의 특성 상 트리 구조로 엄밀하게 분류하기가 힘들기 때문이다. 예를들어 Policy Gradient 와 Value Function을 둘다 사용하는 DDPG, TD3, SAC는 세부적으로 다르게 작동하지만 트리구조 상에서는

2021년 7월 19일
·
0개의 댓글
·
post-thumbnail

[강화학습] REINFORCE (PG)

정책을 가지는 on policy 강화학습 기법에 대하여 알아봅니다.

2021년 5월 11일
·
0개의 댓글
·
post-thumbnail

강화학습이란? Reinforcement Learning, RL overview

NASNet이나, RL for abstractive Summarization 등 딥러닝을 공부하다보면 한 번씩 RL 개념이 튀어나온다.한 번쯤 공부해보고 싶었던 강화학습을 드디어 동아리 스터디 세션에서 가볍게나마 다뤄보았다. 이전까지는 강화학습이 딥러닝에 속하는 sub

2021년 2월 22일
·
0개의 댓글
·