[Reinforcement Learning] 강화학습 핵심 개념

zekim·2021년 10월 7일

Artificial Intelligence reinforcement learning

[Reinforcement Learning]

목록 보기

2/5

인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다.
관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러닝의 하위 개념으로 딥러닝이 있다.
강화학습(Reinforcement Learning)은 Machine Learning의 한 분야이다. 또한, 지도 학습(Supervised Learning) 또는 비지도 학습(Unsupervised Learning), 자기지도 학습(Self-supervised Learning)처럼 강화학습도 데이터 학습 방법의 한 종류이다.
강화학습의 가장 대표적인 예로는 '구글(Google)'에서 발표한 '알파고(AlphaGo)'가 있다.

강화학습은 환경과의 상호작용을 통해 스스로 데이터를 만들고 이를 이용해 환경의 바람직한 변화를 일으키는 행동이 무엇인지를 스스로 학습하게 된다. 최근에는 딥러닝과 결합한 강화학습(Deep Reinforcement Learning)이 주목을 받고 있다.

강화학습에는 상당히 많은 수학적인 개념을 필요로 한다. 그 중 조건부 확률과 마르코프 시퀀스에 대해서 간단하게 설명하고자 한다.

조건부 확률(Conditional Probability)

Sample space를 $S=\{S_1, S_2,\cdots,S_n\}$ 라고 하자. Sample space에 존재하는 각 사건이 일어날 확률이 동일하다고 가정하자. 어떤 사건 $A=\{S_k\}$ 가 일어날 확률은 다음과 같다.

P(A) = \frac1n

하지만, 특정 사건 space $B$ 에서 사건 $A$ 가 일어날 확률은 어떻게 구해야하는 것일까?

이처럼, 전체 sample space에서 사건 $A$ 가 일어날 확률을 구하는 것이 아닌 사건 $B$ 가 일어났을 때 사건 $A$ 가 일어날 때의 확률이 조건부 확률이라고 하고 $P(A|B)$ 로 표기한다. 일반적인 확률과 다른 점은 사건 $A$ 가 일어날 때 고려하는 space가 전체 sample space가 아닌 사건 $B$ 가 일어날 space로 한정된다는 것이다.
따라서, 다음과 같은 식을 만족한다.

P(A|B) = P(A, B) / P(B)

예를 들면, 주사위 놀이에서 5보다 작은 사건이 나올 사건을 $A$ , 3의 배수가 나올 사건을 $B$ 라고 하자. 전체 sample space $S=\{1, 2, 3, 4, 5, 6\}$ 이고, 5보다 작은 값이 나오는 사건은 $B=\{1,2,3,4\}$ , 3의 배수가 나올 사건은 $A=\{3, 6\}$ 이다. 이때, $P(A)=1/3, P(B)=2/3, P(A, B)=1/6$ 이다. 이 때, 조건부 확률 $P(A|B)=P(A,B)/P(B)=(1/6)/(2/3)=1/4$ 가 된다.

마르코프 시퀀스(Markov Sequence)

마르코프 시퀀스(프로세스)는 현재 시점(t)에서의 확률 분포가 알려져 있을 때 다음 시점(k>t)의 랜덤 시퀀스와 이전 시점(s<t)가 독립이라면, 랜덤 시퀀스를 마르코프 시퀀스(프로세스)라고 부른다.

이를 확률 밀도 함수로 표현하면 다음과 같다.

P_{X_{t}}(X_{t+1}|X_t, X_{t-1}, \cdots, X_0) = P_{X_{t}}(X_{t+1}|X_t)

즉, 현재의 랜덤 시퀀스 $X_t$ 에서 다음 랜덤 시퀀스 $X_{t+1}$ 로 갈 확률은 $t$ 시점 이전에서의 랜덤 시퀀스( $X_{t-1}, \cdots, X_0$ )들은 영향을 미치지 않는다는 것이다. 이는 곧 과거의 모든 확률 정보는 현재의 확률 정보에 모두 녹아 있다는 뜻이다.

강화학습은 수식의 연속이며, 처음 접할 때는 이해하기 어려운 부분인 것 같다. 대부분의 수식은 위에 설명한 두 개념을 바탕으로 전개되어 나가므로, 충분히 이해하고 넘어간다면 읽어나가는데 문제가 되지 않을 것 같다.

zekim

이전 포스트

[Reinforcement Learning] MDP (Markov Decision Process)

다음 포스트

[Reinforcement Learning] 강화학습 핵심 개념