# MDP

7개의 포스트

[MDP] Linear Programming

LP를 활용한 MDP 풀이 공식

2022년 4월 21일
·
0개의 댓글

[MDP] Infinite-Horizon MDPs

infinite horizon MDP의 구성요소, value function,value iteration, policy iteration

2022년 4월 21일
·
0개의 댓글
post-thumbnail

강화학습 (Markov Decision Process)

Agent(에이전트)가 Environment(환경)와 상호작용하며 강화학습의 목표는 Environment(환경)에서 Agent가 최대 reward를 얻을 수 있도록 Agent(에이전트)를 학습하는 것이다.캡Agent(에이전트) : 주어진 문제 상황에서 행동하는 주체이다

2022년 1월 23일
·
0개의 댓글
post-thumbnail

1. MDP - Bellman Equation

mdp에 대해서 살펴볼 예정.

2022년 1월 13일
·
0개의 댓글
post-thumbnail

[강화학습] MDP

MDP란 의사결정 과정을 쉽게 도식화 하는 방법 중에 하나입니다.

2021년 6월 10일
·
0개의 댓글
post-thumbnail

강화학습이란? Reinforcement Learning, RL overview

NASNet이나, RL for abstractive Summarization 등 딥러닝을 공부하다보면 한 번씩 RL 개념이 튀어나온다.한 번쯤 공부해보고 싶었던 강화학습을 드디어 동아리 스터디 세션에서 가볍게나마 다뤄보았다. 이전까지는 강화학습이 딥러닝에 속하는 sub

2021년 2월 22일
·
0개의 댓글
post-thumbnail

[CS234] - Lecture 2 - Given a Model of the World

Model: dynamics과 reward의 수학적 모델Policy: 주어진 state에서 action을 결정하는 함수Value function: 특정 policy를 따를 때 state 및 / 또는 action으로 인한 향후 보상Markov ProcessesMarkov

2020년 12월 27일
·
0개의 댓글