[강화학습]정책과 계획

OasisGorilla·2024년 10월 16일
0

정책과 계획에 대해 배웠다.
임의적인 요소를 다룰 때는 이전에 공부했던 결정론적 탐색을 사용할 수 없기 때문에
'계획' 또한 세울 수 없다.
계획은 다음 행동, 다음 단계를 정확히 알고 있을 때만 가능하기 때문이라고 한다.

특정 상태에서 에이전트가 각 행동을 선택할 확률이 있으면, 그 확률에 따라서 에이전트가 최적의 선택을 하도록 하는 것이 정책이라고 이해했다.

아직까지는 강의에서 자세하고 구체적인 내용을 다루고 있지 않다.
가벼운 예시와 순화된 표현들을 통해 개념을 머릿속에 넣어주고 있다.

둘의 차이라고 하면
정책은 에이전트가 실제로 수행하는 행동을 정의하는 반면, 계획은 미래의 결과를 예측하고 이를 통해 더 나은 행동을 선택하기 위한 사전 작업이라고 한다.

미로게임으로 비유하면
계획은 시작점부터 끝까지 연결된 화살표이고 정책은 칸마다 있던 화살표이다.

예측을 해야하기 때문에 불확실한 임의적 요소들이 있을 때는 계획을 사용할 수 없다고 일단은 이해했다.

1개의 댓글

comment-user-thumbnail
2024년 10월 21일

너무 멋있습니다

답글 달기