2021년 여름, 활동중인 데이터 사이언스 학회에서 강화학습을 공부를 시작합니다. 세션을 통해 습득한 내용 + 나름대로 의미있게, 재미있게 읽은 책의 내용을 두달간 기록합니다.글을 쓰는 사람은 강화학습 선수지식이 '전혀' 없는 상태로 강화학습에 입문했습니다. 앞으로
이 글은 [파이썬과 케라스로 배우는 강화학습]을 기반으로 작성되었습니다. 지난 포스팅 에서는 강화학습의 개념과 순차적 행동 결정 문제에 대해 다루었습니다. 이번 포스팅에서는 MDP(Markov Decision Process)와 벨만방정식에 대해 다루겠습니다.
이 글은 파이썬과 케라스로 배우는 강화학습을 기반으로 작성되었습니다.지난 포스팅 에서는 MDP와 벨만방정식에 대해 다루었습니다. 이번 포스팅에서는 벨만 방정식을 계산으로 풀어 순차적 의사결정 문제를 해결하는 다이나믹 프로그래밍에 대해 다루겠습니다.지난 포스트에서 벨만