# reward

3개의 포스트

강화학습 개념정리(1) - 강화학습 정의, state, observation, action space, policy, trajectory, reward, return

최근 몇개월 RL공부를 열심히 하다보니, 기본적인 용어나 개념이 헷갈리는 경우가 종종 있어서이참에 기본부터 개념정리를 싹 하고자 한다. 본 글은 OpenAi Spinning Up - Introduction to RL을 바탕으로 작성하였다.RL(Reinforcement

2021년 7월 17일
·
0개의 댓글
·
post-thumbnail

Reinforcement Learning 강화학습 개요

누군가는 강화학습은 학습과정을 게임화시키는 것과 같다고 했다. 이런 말이 나오게된 이유는 뭘까? 강화학습은 시행착오의 과정을 겪기 때문이다. 옳은 action을 취하면 보상을 받고 틀린 action을 취하면 환경에서 페널티를 준다. 한마디로 강화학습은 빨리 받아들이고

2021년 5월 7일
·
0개의 댓글
·