강화학습을 배워봅시다.
MDP란 의사결정 과정을 쉽게 도식화 하는 방법 중에 하나입니다.
모델을 모르는 경우, 정책을 구하는 것이 쉽지 않습니다.이 경우에 대표적인 방법은 두 가지로 몬테 카를로법과 시간차 방법이 있습니다.
이 포스트는 홍콩 과기대의 김성훈 교수님(Sung Kim)의 강의와 여러 서적에서 배운 내용을 정리하는 흔적입니다.
기본 개념으로만 만든 DQN의 문제점을 찾고 개선합니다.
DQN에서 업그레이드 된 DDQN에 대해서 배워봅시다.
Dueling DQN
정책을 가지는 on policy 강화학습 기법에 대하여 알아봅니다.
이 포스트에서는 OpenAi의 Gym에서 제공하는 Acrobot-v1 환경이 어떻게 정의 되어 있는지 분석합니다.
REINFORCE 알고리즘에서 분산을 줄여 최적화하는 알고리즘을 알아봅니다.
CNN 레이어가 어떻게 구성되는지 다룹니다.
많이 쓰이는 손실함수와 활성화 함수를 정리하였습니다.
강화학습 알고리즘은 각각 어떻게 분류가 되는지 정리합니다.