바닥부터 배우는 강화학습 - 강화학습이란?

cjun·2022년 3월 17일

0

바닥부터 배우는 강화학습

목록 보기

1/2

CHAPTER 1. 강화학습이란?

1.1 지도학습과 강화학습

지도학습 : 지도자의 도움을 받아서 학습
비지도학습 : 주어진 데이터를 비슷한것 끼리 묶는 것
강화학습 : 시행착오를 통해서 학습

강화학습

쉽지만 추상적인 버전
- "시행착오를 통해 발전해 나가는 과정"
어렵지만 좀 더 정확한 버전
- "순차적 의사결정 문제에서 누적 보상을 최대화 하기 위해 시행착오를 통해 행동을 교정하는 학습 과정"

1.2 순차적 의사 결정 문제

일상에서의 순차적 의사 결정 문제

샤워하는 남자
1. 옷을 벗는다.
2. 샤워를 한다.
3. 물기를 닦는다.
4. 옷을 입는다.
주식 투자에서의 포트폴리오 관리
- 어떤 주식을 살지
- 주식을 계속 가지고 있을지 팔지
- 팔면 어떤 다른 주식을 살지
운전
- 어느 도로를 이용할지
- 어느 차선을 이용할지
- 액셀을 밟을지
- 브레이크를 밟을지
- 핸들을 어느정도 돌릴지
게임(LOL)
- 어떤 챔피언을 선택할지
- 어느 라인에 설지
- 어떤 아이템을 살지
- 공격적으로 할지, 수비적으로 할지
각 상황에 따라 하는 행동이 다음 상황에 영향을 주며, 결국 연이은 행동을 잘 선택해야하는 문제

1.3 보상

강화학습의 목적은 과정에서 받는 보상의 총합, 즉 누적 보상(cumulative reward)을 최대화하는 것

보상 : 의사결정을 얼마나 잘하고 있는지 알려주는 신호
- 특징 1. "어떻게"에 대한 정보를 담고 있지 않음
  --> 얼마나 잘하고 있는지 평가만 존재, 어떻게 해야하는지 안알려줌
  --> 수많은 시행착오를 통해서 학습
- 특징 2. 스칼라
  --> 크기를 나타내는 값 하나로 이루어짐
- 특징 3. 희소하고 지연된 보상
  -->선택했던 행동의 빈도에 비해 가끔 혹은 한참 뒤에 보상도 발생

1.4 에이전트와 환경

에이전트 입장

현재 상황 s(t)에서 어떤 액션을 해야 할지 a(t)를 결정
결정된 행동 a(t)를 환경으로 보냄
환경으로부터 그에 따른 보상과 다음 상태의 정보를 받음

환경이 하는 일

에이전트로부터 받은 액션 a(t)를 통해서 상태 변화를 일으킴
그 결과 상태는 s(t) --> s(t+1)로 바뀜
에이전트에게 줄 보상 r(t+1)도 함께 계산
s(t+1)과 r(t+1)을 에이전트에게 전달

1.5 강화학습의 위력

병렬성의 힘

혼자서 100시간 해야할 일을 100명이서 1시간에 가능

2. 자가 학습(self-learning)의 매력

굉장히 유연하고 자유로우며 성능면에서 뛰어남
충분한 계산 능력과 어우러지면 무한한 가능성

Sometimes You gotta run before you can walk.

다음 포스트

바닥부터 배우는 강화학습 - 마르코프 결정 프로세스(Markov Decision Process)

0개의 댓글

관련 채용 정보