시리즈

RL

1.[RL] TD-Learning(n-step, backward TD(lambda) 구현

전통적인 강화학습 분야에서 model-free(MDP를 모르는 상황) 즉 전이확률과 보상함수에 대한 정보가 없을 때 Monte carlo, TD-Learning(temporal diffrence learning)을 사용한다. 해당 포스트는 TD-learning 기법

2024년 4월 7일