# reinforcement learning

78개의 포스트
post-thumbnail

Reinforcement Learning

강화학습 톺아보기

2022년 8월 2일
·
0개의 댓글
·
post-thumbnail

Reinforcement learning(강화학습)-MDP(Markov Decision Process)

※참고※ 이번 주제부터는 이전에 배운 개념들을 잘 익혀야 순조롭게 진행될 것입니다. 화이팅!🐱‍🏍

2022년 7월 19일
·
0개의 댓글
·
post-thumbnail

Reinforcement learning(강화학습)-Q-learning_02

🙄Q-value를 초기화하는 방법을 들여다보자.

2022년 7월 18일
·
0개의 댓글
·
post-thumbnail

Machine Learning의 구분

supervised learning(지도학습) unsupervised learning(비지도학습) reinforcement learning(강화학습)

2022년 7월 17일
·
0개의 댓글
·
post-thumbnail

Reinforcement learning(강화학습)-Q-learning_01

오늘 살펴볼 것은 강화학습 이론과 Q-learning의 Greedy action이다.

2022년 7월 15일
·
0개의 댓글
·
post-thumbnail

Reinforcement learning(강화학습) 입문

✍(◔◡◔) 강화학습 개념과 짧은 용어 정의

2022년 7월 12일
·
0개의 댓글
·

Deep Sarsa

date: 2021-11-30 20:00:00table-based approach는 위 그림과 같이 trap이 움직이는 dynamic 환경에서는 state가 급격하게 증가하기 때문에 문제가 생긴다. 따라서 이를 해결하기 위해 neural network를 사용하는 방식을

2022년 7월 7일
·
0개의 댓글
·

Q-Learning (code)

layout: posttitle: Q-Learning (code)comments: truecategories: DataScience/Reinforcement Learningtags: q-learning, 큐러닝, Reinforcement Learning, 강화학습, r

2022년 7월 7일
·
0개의 댓글
·

SALSA (code)

date: 2021-10-18 22:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 SALSA 포스트를 읽어주세요.설명은 주석으로 해두

2022년 7월 7일
·
0개의 댓글
·

Value Iteration(code)

date: 2021-10-18 21:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 value iteration 포스트를 읽어주세요.설

2022년 7월 7일
·
0개의 댓글
·

Policy Iteration(code)

date: 2021-10-18 19:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다이 코드를 이해하려면 앞선 policy iteration 포스트를 읽어주세요.설명은 주석으

2022년 7월 7일
·
0개의 댓글
·

Q-Learning(큐러닝)

date: 2021-10-18 18:00:00이전 포스트에 이어서 이번에는 q-learning을 해보겠다.q-learning은 SALSA 와 다르게 SALS만 하는것이다,왜 그러면 마지막 A를 뻈을까??2021-10-18-rlpost10-01.png왼쪽은 SALSA 오

2022년 7월 7일
·
0개의 댓글
·

SARSA(살사)

date: 2021-10-18 16:00:00이 밑의 그림은 살사와 큐러닝의 흐름도이다.2021-10-18-rlpost9-01.png앞서 mc method와 td-learning에 대해서 배웠다.td-learning 을 사용하는 두가지 방식인 살사와 큐러닝에 대해서 알

2022년 7월 7일
·
0개의 댓글
·

Monte Carlo Prediction and Temporal Difference Error

date: 2021-10-18 12:00:00우리는 policy iteration을 policy evaluation과 policy improvemet를 통해서 다이나믹 프로그래밍을 이용해 계산을 하였다.그런데, 대부분의 문제는 다이나믹 프로그래밍을 적용하기 어렵다.그

2022년 7월 7일
·
0개의 댓글
·

Value Iteration(가치 이터레이션)

date: 2021-10-17 22:00:00우리가 방금까지 policy iteration을 실제로 계산 까지 해보았다.잠시 저번 포스트의 policy iteratoin을 6번 한 결과를 보겠다.이렇게 보니 value값만 보고 증가하는 추세를 따라 agent가 이동하면

2022년 7월 7일
·
0개의 댓글
·

Policy Iteration(정책 이터레이션)

date: 2021-10-17 21:00:00전 포스트에서 벨만 기대 방정식에 대해서 다루어 보았다.이는 벨만 기대 방정식인데 현재의 정책 π을 따라갔을때 받을 보상에 대한 기댓값이라고 할 수 있다.우리는 벨만 기대 방정식을 통해 한 timestep의 reward, v

2022년 7월 7일
·
0개의 댓글
·

Bellman Equation(벨만 방정식)

date: 2021-10-16 22:00:00지금까지 설명한 내용들을 이제 계산 가능한 식의 형태로 나타내 볼테다.우리는 "value-function을 벨만 기대 방정식(Bellman Expectation Equation)이다." 라고 value-function을 설명

2022년 7월 7일
·
0개의 댓글
·

Q-function(큐함수)

date: 2021-10-16 21:00:00우리는 앞서 상태 가치 함수(state value-function)에 대해서 공부하였다.agent는 가치함수를 통해 어떤 state에 있는게 좋은지를 판단 할 수 있다.그러나 우리는 그 state에 있을때 어떤 action을

2022년 7월 7일
·
0개의 댓글
·

Value Function(가치함수)

date: 2021-10-16 19:00:00우리는 앞서 MDP를 통해 강화학습 문제를 정의 하였다.설정된 MDP를 가지고 우리는 agent가 미래 reward를 고려하여 action을 선택할것이라고 하였다.그런데 도대체 어떻게 미래 reward를 고려한다는것이고 어떤

2022년 7월 7일
·
0개의 댓글
·

Markov Decision Process(MDP)

date: 2021-10-15 22:00:00강화학습에서 agent가 학습을 하는데에 있어서 가장 중요한것은 agent가 풀고자 하는 문제의 정의라고 할 수 있다.문제가 정의가 되어야지 학습을 시작할 수 있기 때문이다사람은 스스로 문제에 대해서 정의를 내릴 수 있지만,

2022년 7월 7일
·
0개의 댓글
·