강화학습 공부(1) - 개요

결·2025년 1월 8일

강화학습

목록 보기

1/11

강화학습

강화학습 개념

환경으로부터 보상을 받는! 그 보상을 가지고, 학습을 가는 것!

결국, 상황에 적합한 행동을 찾기까지는 수많은 행동이 필요하다.

가정하고 있는 상황은,
1. 학습 주체는 환경에 대해 모름
2. 시행착오가 필요
3. 현재의 행동이 미래의 순차적인 보상에 영향을 준다.

과연 비지도, 지도학습이랑 어떤 차이?

지도학습
label이 주어짐 = 즉각적인 피드백이 가능
비지도학습
label이 주어지지 않음.
강화학습
label이 존재하지 않음.
agent가 interaction을 통해 보상을 가지고 학습
환경과의 상호작용을 통해서 데이터를 취득하고 학습하는 방법

한발한발 나아갑니당!

다음 포스트

강화학습 (2) - multi-armed bandit 문제

0개의 댓글