#2. 다중 선택

Temmie Chang (포인세티아)·2022년 5월 13일

강화학습을 다른 종류의 학습 방법과 구별 짓는 가장 중요한 특징은 올바른 행동을 알려주는 지침(Instruct)가 아닌 행동의 좋고 나쁨을 평가(Evaluate)하는 훈련 정보를 사용하는 것이다. 때문에 강화학습은 좋은 행동을 찾기 위한 탐색이 필요하다. 이 평가는 취해진 행동이 얼마나 좋은가를 나타내며 행동에 의해서 이루어진다.

하나의 상황에 대해서만 행동을 학습하는 비연합적(Nonassociative) 구조의 단순한 환경에서 평가적 피드백과 지침적 피드백이 얼마나 다른지 확인하고, 둘을 어떻게 결합할 수 있는지 확인해보고 이를 확장해 강화학습 문제에 적용해본다.

2.1 다중 선택 문제

k개의 서로다른 행동을 반복적으로 선택하고, 매 선택마다 보상을 줄 때, 보상이 선택한 행동에 따라 정상 확률 분포(Stationary Probability Distribution; 시간과 관계없이 같은 확률 분포를 가짐)를 가진다고 한다면, 이 때 보상의 총량에 대한 기댓값을 최대화 하는 것을 다중 선택 문제(k-armed bandit problem)라고 한다.

이는 마치 k개의 레버를 가진 슬롯 머신을 돌리는 것과 비슷하기 때문에 이런 이름이 붙었다. 단순히 여러 레버 중 최고의 보상을 주는 레버만 집중해서 보상을 최대로 만드는 것이 목적이다.

각각의 행동은 행동이

2.2 행동 가치 방법

행동 가치 방법(Action-value method)은 행동이 가지는 가치를 추정해서 이로부터 행동을 선택하도록 하는 방법으로, 어떤 행동이 가지는 가치의 참값은 행동의 선택될 때의 평균 보상이므로, 실제 받은 보상의 산술 평균으로 계산할 수 있다. 이런식의 행동 가치 추정 방법은 관련 보상값에 대한 표본 평균(sample average)을 추정값으로 하므로, 표본 평균 방법이라고 한다.

이 때 간단한 행동 선택 규칙은 추정 가치가 최대인 행동을 선택하는 탐욕적(Greedy) 방식으로 $A_t = argmax_aQ_t(a)$ 과 같이 수식으로 나타낼 수 있으며, 가장 '가치가 높은 선택지'를 선택하는 방식, 즉 가치가 최대인 행동을 고르는 것이다.

탐욕적 행동은 현재의 지식을 활용하는 것이지만, 현재보다 더 좋은 결과를 낼 수 있는

Temmie Chang (포인세티아)

이전 포스트

헤픈 우연

다음 포스트

#2. 다중 선택

2.1 다중 선택 문제

2.2 행동 가치 방법

헤픈 우연

DL With Tensorflow 4. Regularization

0개의 댓글