# Value Iteration

4개의 포스트
post-thumbnail

[강화학습] Planning by Dynamic Programming

model을 알고 있을 때(=MDP를 알 떄), Reinforcement Learning에서 Prediction 문제와 Control 문제를 해결하는 방법을 배우는 챕터 (with. DP)

2023년 1월 28일
·
0개의 댓글
·

Value Iteration(code)

date: 2021-10-18 21:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 value iteration 포스트를 읽어주세요.설

2022년 7월 7일
·
1개의 댓글
·

Value Iteration(가치 이터레이션)

date: 2021-10-17 22:00:00우리가 방금까지 policy iteration을 실제로 계산 까지 해보았다.잠시 저번 포스트의 policy iteratoin을 6번 한 결과를 보겠다.이렇게 보니 value값만 보고 증가하는 추세를 따라 agent가 이동하면

2022년 7월 7일
·
0개의 댓글
·
post-thumbnail

Off-Policy TD Q-Learning

강화학습 시리즈는 패스트캠퍼스 박준영 강사님의 수업과 Sergey Levine의 Deep Reinforcement Learning 그리고 서튼의 강화학습 교재를 참고하여 만들어졌고 어떤 상업적 목적이 없음을 밝힙니다.$V(s)=\\sum\\limits{a \\in A(

2022년 2월 8일
·
0개의 댓글
·