강화학습 (1)

이석영·2021년 5월 17일
0

강화학습

목록 보기
1/2

강화학습(Reinforcement Learning)이란?

머신러닝은 보통 label이 존재하는 지도학습, label이 존재하지 않고 클러스터링과 패턴인식을 위한 비지도 학습 그리고 마지막으로 강화학습으로 구분된다.

여기서 label이란 쉽게 표현하면 학습데이터의 정답을 의미하는데 모든 문제들이 항상 정확한 정답을 가지고있는 것은 아닐 것이다.

움직이는 로봇(environment)을 예로 들면, 이 로봇이 이동(action)한다고 했을 때 어디로 어떻게 움직이는 것(policy)이 정확한 정답인지 알 수 있을까? 아마 주변의 장애물, 로봇의 현 위치, 관절 등 너무 많은 변수들로 인해 쉽게 정의하기 힘들 것이다.
따라서 이런경우 로봇이 현재의 상태(state)에서 특정한 policy에따라 움직였을 때 다음상태가 된 후 이동을 성공한다면 +1, 넘어진다면 -1을 보상(reward)으로 줌으로써 로봇의 행동을 잘 움직이는 방향으로 강화할 수 있다. 이렇게 매 순간 액션을 취한 후 최종 목적지에서 스코어가 가장 높은 policy를 학습하는 것을 강화학습이라고 한다.

즉 강화학습이란 최적의 policy 함수를 찾는 것이고, 최적이란 의미는 위에서 설명한 것 처럼 미래에 보상받을 스코어의 기대값이 최고가 되는 것을 의미한다.

최적의 policy 함수를 찾기 위해서는 다음의 마코브 의사결정 과정(Marcov Dicision Process), 값반복(Value iteration), 정책반복(Policy iteration)의 개념을 알아야하는데, 관련해서는 앞으로 차차 하나씩 리뷰글을 작성해보겠다.

profile
원하는 대로 살자

0개의 댓글