인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다. 관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러
인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다. 관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러
벨만 방정식은 dynamic programming(DP)로 풀 수 있고, 이는 정책 이터레이션(Policy Iteration)과 가치 이터레이션(Value Iteration)으로 나뉜다. 정책 이터레이션은 탐욕적인 search 방법론이다.이는 정책에 따라 목표에 빠르게
Value-based Methods Value-based Method에는 대표적으로 Q-Learning, Deep Q-Learning 등이 있다. Value function에 의해서 각각의 state마다 action에 대해서 가치(value)를 판단한다. 이를 통해서
REINFORCE 알고리즘은 정책을 업데이트 하기 위해서 M개의 에피소드가 끝날 때 까지 기다려야하며, 그래디언트의 분산이 매우 크다는 단점이 있다. 이를 개선하기 위해 제시된 알고리즘이 어드벤티지 액터-크리틱(A2C, Advantage actor-critic)이다.