인공지능 공부하기 - 1

Cloud_ Ghost·2022년 10월 18일

AI

목록 보기

1/42

$S$ : State (상태)

$A$ : Action (행동)

$R$ : Reward (보상)

$γ$ : Discount (할인계수) (*감마)

자, 시작에 앞서 간단하게 먼저 생각해보겠습니다.
Agent라는 인공지능을 가진 로봇이 4 X 3의 미로에 갇혔습니다!

여기에서 불구덩이 State와 Goal State가 존재하고, 중간에는 지날 수 없는 어마무시한 벽이 있다고 가정해보겠습니다.

이때, Agent가 특정 State에 도달하면 보상을 얻을 때 Agent는 어떠한 action을 취해야 할까요?

그림(1)
~~그림판으로 그려서 그런가 그림이 개발새발이네요ㅠㅠ~~

Goal : Agent가 보상을 얻는 곳 입니다. / 도착시 R = +1의 보상을 얻습니다.

Fire : Agent가 보상을 얻는 곳 입니다. / 도착시 R = -1의 보상을 얻습니다.

회색 벽 : Agent가 지나갈 수 없는 곳 입니다.

그림(1)을 보시면 Agent는 왼쪽 제일 구석에 위치하고 있고 Goal이라는 목표를 향해 도달하기 위해 전략을 구성할 것입니다.

저는 Agent에게 위, 아래, 오르쪽, 왼쪽으로 갈 수 있고 이게 할 수 있는 행동의 전략이라고 입력하겠습니다.

이후 Agent가 마음대로 움직여보라고 했을 때
Goal에 도착하게 되면 R(보상)이 +1이 되겠죠?

이 때 Agent는 "오? 이것봐라? Goal에 도착하니까 보상이 생기네?" 라고 생각하며(물론 진짜 사람처럼 생각을 한다는게 아니지만) 보상을 받기 위해서 Goal 지점에 가야 된다고 생각을 하게 된답니다.

이때 질문을 던져 보겠습니다

"어떻게 Agent가 Goal Block에 도착한걸까?"
"Goal에 도착하기 전 상태는 어디였고, 어떤 행동으로 블록에 도착한걸까?"

Agent는 A Block에서 오른쪽으로 움직이면 Goal에 도달하게 되므로 "그렇다면 A Block이 가치있는 State겠구만~?" 이라고 알게됩니다.

Agent Think : "그렇다면 여기서 한 걸음만 더 가면 보상(Goal에 도달하여 R이 +1 증가 됨)을 얻게되네?"

여기서 한 걸음만 더 가면 보상을 얻게되므로 Agent는 A Block이 1의 가치를 가졌다고 기억하게 될 것 입니다.

제가 공부 하기 위해 유데미에서 보고 정리한 내용입니다.
부족한 점이 많다는 점 인지 하고 있습니다.
잘 못된 내용이 있다면 일깨워주신다면 배움을 주셨음에 감사하게 생각하며 더 풍성한 내용이 될 거 같습니다!!!

행복합시다~