#01. 강화학습이란

Temmie Chang (포인세티아)·2022년 4월 26일

1.1 지도학습과 강화학습

기계학습(Machine learning)의 분류

지도학습
학습데이터를 통해 인풋과 아웃풋 사이의 관계를 파악. 트레이닝 데이터의 피쳐들을 통해 데이터와 정답 사이를 알아내고 테스트 데이터에 적용해본다. feature를 직접 줄 수도 있으나, 요즘은 딥러닝(Deeplearning)을 통해 피쳐를 자동으로 추출하여 학습하는 방법을 많이 사용함

강화학습
지도학습과는 다르게 정답이 주어지지 않기 때문에, 시행착오를 통해 적절한 행동을 하도록 학습하는 과정을 거친다.

비지도학습
지도학습, 강화학습에 둘다 해당되지 않음, 데이터 중에 성질이 비슷한 것들을 묶는 클러스터링, 새로운 데이터를 생성하는 생성모델 등이 있다.

1.2 순차적 의사결정 문제

우리 삶에서 어떤 일을 할 때는 항상 몇 가지 의사결정을 순차적으로 해주어야 함. 어떤 행동은 다음 상황을에 영향을 주므로, 그 상황에 맞는 의사결정을 해야함.

ex) 주식투자, 운전, 게임 등등

1.3 보상

보상(reward)이란 의사결정을 얼마나 잘하고 있는지의 신호로, 강화학습의 목적은 순차적인 행동의 과정에서 각각 받는 보상들의 총합, 즉 누적보상을 최대화하는 것이다.
보상은 '어떻게' 보상에 이르게 되었는지를 잘 설명하지 못하지만 수많은 시행착오 속에서 어떤 경우 잘했는지와 못했는지에 대한 피드백을 받기 때문에 보상을 최대화 하도록 행동을 수정해나갈 수 있게된다.

보상은 보통 크기를 나타내는 값 하나인 스칼라(scalar)로 나타난다. 현실 세계에서는 이런 단순한 목표만을 위해서 행동을 하지 않지만, 여러 개의 목표들의 가중합을 통해 벡터(vector)를 스칼라로 변환할 수 있다.

목표를 단순하게 하기 어려운 복잡한 문제 해결에 적합하지 않을 수도 있다.

희소하고 지연된 보상
보상은 희소(Sparse)하고 지연(Delay)될 수 있다.
연속된 행동에서 보상은 가끔씩만 주어지거나 행동의 결과가 한참 뒤에나 나올 수 있기 때문이다.

1.4 에이전트와 환경

에이전트 : 강화학습의 주체
환경 : 에이전트를 제외한 모든 것

특정한 시간 t에 대하여,
환경 속에서 에이전트가 어떤 행동(a_t) 을 하고나면,
에이전트와 환경에 대한 모든 정보인 상태(s_t) 가 변화한다.
환경은 에이전트에게 보상(r_t+1), 변화한 환경(s_t+1)
을 전달해준다.

현실의 연속적인 시간과는 다르게 (게임으로 치면real time)
강화학습에서의 시간은 이산적이며, (게임으로 치면turn)
시간 단위를 틱 혹은 타임스텝이라고 한다.

1.5 강화학습의 힘

병렬성 : 연속적인 시간이 아닌때에 습득한 정보도 기억할 수 있다. 마치 환영분신술처럼
자가학습 : 정답을 정해주지 않아도 스스로 시행착오를 통해서 적절한 정답을 찾아갈 수 있으므로, 유연하고 창의적이다. 이는 딥러닝에게는 없는 강인공지능에 가깝다.

Temmie Chang (포인세티아)

이전 포스트

텐서플로 함수들 정리

다음 포스트