Why Should I Trust You, Bellman? The Bellman Error is a Poor Replacement for Value Error

qbx2·2022년 2월 18일
0

https://arxiv.org/abs/2201.12417

(페이퍼는 자세히 읽어보진 않았지만 대충 요약)
흠.. td error를 minimizing 하는것은 suboptimal solution이 너무 많아서 value function을 최적화하는데 큰 도움이 되지 않는다고 한다. 그럴듯하다.
즉 과적합이나 로컬옵티마 문제가 잘 생기겠다
이걸 해결하기 위해 BRM을 직접 적용하려 했는데 실패했다고 한다

요즘에 bellman equation 안쓰는 모델이 있나..?
.... 있다
18년의 그 모델이 떠올랐는데, 다시 한번 적용해봐야겠다
뭔진 안알려줌

0개의 댓글