trial-and-error search 시행착오. 솔루션에 집중적이며, 특정 문제에 특화되있고, 환경이 정확하지 않아도 (knowledge가 적어도) 되는 특성이 있다delayed reward current reward만 영향을 주는것이 아니라 나중의 state, r
누군가는 강화학습은 학습과정을 게임화시키는 것과 같다고 했다. 이런 말이 나오게된 이유는 뭘까? 강화학습은 시행착오의 과정을 겪기 때문이다. 옳은 action을 취하면 보상을 받고 틀린 action을 취하면 환경에서 페널티를 준다. 한마디로 강화학습은 빨리 받아들이고
이 글은 shorturl.at/dgkpL 와 여러 reference의 내용을 번역, 정리한 글이며 가장 기초적인 개념을 담은 글입니다. 오역, 틀린 내용은 댓글로 부탁드립니다. 내용은 의역하여 정리 하였습니다.\- Stochastic 는 random = probabil
우리가 최소화 최대화 하고 싶어하는 함수를 목적함수라고 한다. 최소화 시킨 함수를 비용함수 (cost function), 손실 함수 (loss function), 또는 오류 함수 (error function)라고 부를 수 있다. 비용함수는 최적화 문제에 쓰이고 손실함수