profile
좀 더 스마트하게 살고 싶은 리눅스, 로보틱스 개발자

[RL] Q-Learning

이번 포스팅에서는 지난 글에 이어 TD Control 방식 중 하나인 Q-Learning에 대해 다루겠습니다.

2023년 5월 26일
·
0개의 댓글
·

[RL] SARSA

이번 포스팅에서는 Temporal Difference Algorithm 기반의 prediction한 정보를 통해 Policy Iteration을 하기 위한 SARSA Algorithm에 대해 설명하겠습니다.

2023년 4월 20일
·
0개의 댓글
·

[RL] Monte Carlo Control

이번 포스팅에서는 Monte Carlo Algorithm 기반의 prediction한 정보를 통해 Policy Iteration을 하기 위한 Monte Carlo Control에 대해 설명하겠습니다.

2023년 4월 11일
·
0개의 댓글
·

[RL] Temporal Difference

이번 포스팅에서는 에피소드의 종료를 기다리지 않고 모델을 업데이트하는 Temporal Difference 모델에 대해 다루겠습니다.

2023년 4월 10일
·
0개의 댓글
·

[RL] Monte Carlo

이번 포스팅에서는 환경에 대한 정보가 없을 때 최적 가치 함수를 찾는 Monte Carlo 방식에 대해 알아보겠습니다.

2023년 4월 2일
·
0개의 댓글
·

[RL] MDP Dynamic Programming

이번 포스팅에서는 주어진 환경을 알 때 최적 정책을 도출해내는 Dynamic Programming 방법에 대해 다뤄볼 것입니다.

2023년 4월 2일
·
0개의 댓글
·

[RL] Bellman Equation

벨만 방정식은 강화 학습을 이해하는데 가장 중요한 개념 중 하나이다.

2023년 3월 27일
·
0개의 댓글
·

[RL] Markov Process

이번 포스팅에서는 가장 기초가 되는 Markov Process에 대해 이야기하겠습니다.

2023년 2월 28일
·
0개의 댓글
·