시리즈

RL

1.강화학습이란?

date: 2021-10-14 22:00:00 강화라는 개념을 처음 제시한 학자인 스키너의 실험(행동심리학)을 이해하면 강화학습이 무엇인지 알 수 있다. img 위 과정을 통해 쥐가 지렛대를 누르는 행동을 하게 되면 먹이이라는 보상을 받게 된다. 쥐는 지렛대를

2022년 7월 7일

2.Markov Decision Process(MDP)

date: 2021-10-15 22:00:00강화학습에서 agent가 학습을 하는데에 있어서 가장 중요한것은 agent가 풀고자 하는 문제의 정의라고 할 수 있다.문제가 정의가 되어야지 학습을 시작할 수 있기 때문이다사람은 스스로 문제에 대해서 정의를 내릴 수 있지만,

2022년 7월 7일

3.Value Function(가치함수)

date: 2021-10-16 19:00:00우리는 앞서 MDP를 통해 강화학습 문제를 정의 하였다.설정된 MDP를 가지고 우리는 agent가 미래 reward를 고려하여 action을 선택할것이라고 하였다.그런데 도대체 어떻게 미래 reward를 고려한다는것이고 어떤

2022년 7월 7일

4.Q-function(큐함수)

date: 2021-10-16 21:00:00우리는 앞서 상태 가치 함수(state value-function)에 대해서 공부하였다.agent는 가치함수를 통해 어떤 state에 있는게 좋은지를 판단 할 수 있다.그러나 우리는 그 state에 있을때 어떤 action을

2022년 7월 7일

5.Bellman Equation(벨만 방정식)

date: 2021-10-16 22:00:00지금까지 설명한 내용들을 이제 계산 가능한 식의 형태로 나타내 볼테다.우리는 "value-function을 벨만 기대 방정식(Bellman Expectation Equation)이다." 라고 value-function을 설명

2022년 7월 7일

6.Policy Iteration(정책 이터레이션)

date: 2021-10-17 21:00:00전 포스트에서 벨만 기대 방정식에 대해서 다루어 보았다.이는 벨만 기대 방정식인데 현재의 정책 π을 따라갔을때 받을 보상에 대한 기댓값이라고 할 수 있다.우리는 벨만 기대 방정식을 통해 한 timestep의 reward, v

2022년 7월 7일

7.Value Iteration(가치 이터레이션)

date: 2021-10-17 22:00:00우리가 방금까지 policy iteration을 실제로 계산 까지 해보았다.잠시 저번 포스트의 policy iteratoin을 6번 한 결과를 보겠다.이렇게 보니 value값만 보고 증가하는 추세를 따라 agent가 이동하면

2022년 7월 7일

8.Monte Carlo Prediction and Temporal Difference Error

date: 2021-10-18 12:00:00우리는 policy iteration을 policy evaluation과 policy improvemet를 통해서 다이나믹 프로그래밍을 이용해 계산을 하였다.그런데, 대부분의 문제는 다이나믹 프로그래밍을 적용하기 어렵다.그

2022년 7월 7일

9.SARSA(살사)

date: 2021-10-18 16:00:00이 밑의 그림은 살사와 큐러닝의 흐름도이다.2021-10-18-rlpost9-01.png앞서 mc method와 td-learning에 대해서 배웠다.td-learning 을 사용하는 두가지 방식인 살사와 큐러닝에 대해서 알

2022년 7월 7일

10.Q-Learning(큐러닝)

date: 2021-10-18 18:00:00이전 포스트에 이어서 이번에는 q-learning을 해보겠다.q-learning은 SALSA 와 다르게 SALS만 하는것이다,왜 그러면 마지막 A를 뻈을까??2021-10-18-rlpost10-01.png왼쪽은 SALSA 오

2022년 7월 7일

11.Policy Iteration(code)

date: 2021-10-18 19:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다이 코드를 이해하려면 앞선 policy iteration 포스트를 읽어주세요.설명은 주석으

2022년 7월 7일

12.Value Iteration(code)

date: 2021-10-18 21:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 value iteration 포스트를 읽어주세요.설

2022년 7월 7일

13.SALSA (code)

date: 2021-10-18 22:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 SALSA 포스트를 읽어주세요.설명은 주석으로 해두

2022년 7월 7일

14.Q-Learning (code)

layout: posttitle: Q-Learning (code)comments: truecategories: DataScience/Reinforcement Learningtags: q-learning, 큐러닝, Reinforcement Learning, 강화학습, r

2022년 7월 7일

15.Deep Sarsa

date: 2021-11-30 20:00:00table-based approach는 위 그림과 같이 trap이 움직이는 dynamic 환경에서는 state가 급격하게 증가하기 때문에 문제가 생긴다. 따라서 이를 해결하기 위해 neural network를 사용하는 방식을

2022년 7월 7일