(1) 강화학습이란?

SimplePro·2023년 7월 22일

평소에는 컴퓨터비전을 주로 공부하다가, 강화학습 공부를 시작한지 얼마 안되어서 개념을 정리해볼 겸 블로그를 작성해보려고 한다. 어떻게 하다보니 velog의 첫 게시글이 되게 되었다. (예전 블로그)

강화학습에는 상황(state)에 따른 행동(action)을 하는 에이전트(agent)가 있고, action에 따른 보상(reward)를 받는다. state의 범위를 환경(environment)라고 한다. 그리고 에이전트는 정책(policy)에 따라 행동(action)을 하게 된다.

강화학습의 주된 과제는 policy를 찾는 것이 될 것이다.

먼저 그러기 위해서는 최적의 policy가 무엇인지 정의하는 것이 중요하다.

다음 글에서는 최적의 policy를 찾을 수 있는 기준이 되는 상태가치함수와 행동가치함수, 그리고 벨만 방정식에 대해서 알아보도록 할 것이다.

SimplePro

#인공지능 #ML #DL #ComputerVision #NLP #RL #GenerativeModel #GAN #StableDiffusion / 07년생 개발자

다음 포스트

(1) 강화학습이란?

(1) 강화학습이란?

0개의 댓글

관련 채용 정보