๊ฐํํ์ต์ ์์ด์ ํธ๊ฐ ํ๊ฒฝ๊ณผ ์ํธ์์ฉํ๋ฉฐ ์ํ์ฐฉ์ค๋ฅผ ํตํด ์ต์ ์ ํ๋์ ํ์ตํ๋ ์์ฐจ์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ์ด๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํด๊ฒฐํ๊ธฐ ์ํด์๋ ํ๊ฒฝ์ ๋ณํ๋ฅผ ์ํ์ ์ผ๋ก ๋ชจ๋ธ๋งํด์ผ ํ๋ฉฐ, ์ด๋ฅผ ์ค๋ช ํ๋ ํต์ฌ ๊ฐ๋ ์ด ๋ง๋ฅด์ฝํ ๊ณผ์ (Markov Process)์ด๋ค.
๋ง๋ฅด์ฝํ ๊ณผ์ ์ ํ์ฌ ์ํ๋ง์ผ๋ก ๋ฏธ๋ ์ํ๋ฅผ ๊ฒฐ์ ํ ์ ์๋ ์ฑ์ง(๋ง๋ฅด์ฝํ ์ฑ์ง, Markov Property)์ ๊ฐ์ง๋ค. ์ด๋ฅผ ํตํด ์์ด์ ํธ๋ ๊ณผ๊ฑฐ์ ๋ชจ๋ ์ ๋ณด๋ฅผ ๊ธฐ์ตํ์ง ์๊ณ ๋ ํ์ตํ ์ ์๋ ํจ์จ์ฑ์ ์ ๊ณตํ๋ค. ๋ง๋ฅด์ฝํ ๊ณผ์ ์ ํ์ฅํ ๋ง๋ฅด์ฝํ ๋ณด์ ๊ณผ์ (MRP)์ ์ํ๋ณ๋ก ์ฅ๊ธฐ์ ์ธ ๋ณด์์ ํ๊ฐํ๋ ๋ฐ ํ์ฉ๋๋ฉฐ, ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ ์์ด์ ํธ๊ฐ ์ต์ ์ ํ๋์ ์ ํํ์ฌ ์์ฐจ์ ์์ฌ๊ฒฐ์ ์ ํด๊ฒฐํ๋ ๊ฐํํ์ต์ ํต์ฌ ํ๋ ์์ํฌ์ด๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, MDP๋ ๊ฐํํ์ต์์ ์์ฐจ์ ์์ฌ๊ฒฐ์ ์ ๋ชจ๋ธ๋งํ๋ ๊ธฐ์ด๋ฅผ ์ ๊ณตํ๋ฉฐ, ์ด๋ฅผ ๊น์ด ์ดํดํ๋ ๊ฒ์ด ๊ฐํํ์ต์ ์ค๊ณํ๊ณ ๊ตฌํํ๋ ๋ฐ ํ์์ ์ด๋ค. ๋ค์์ผ๋ก, ์ด๋ฌํ ๊ฐ ๊ฐ๋ ์ ๊ตฌ์ฒด์ ์ผ๋ก ์ดํด๋ณธ๋ค.
์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ํ๊ฒฝ ์์์ ์์ด์ ํธ๊ฐ ์ผ๋ จ์ ํ๋์ ์ ํํ์ฌ ์ต์ ์ ๋ชฉํ๋ฅผ ๋ฌ์ฑํ๋ ๋ฌธ์ ๋ฅผ ๋งํ๋ค.

- ์ ํธ๋ฑ ๊ด์ฐฐ: ์ฐจ๋์ด ๊ต์ฐจ๋ก์ ์ ๊ทผํ๋ฉฐ ์ ํธ๋ฑ์ ์ํ๋ฅผ ํ์ธํ๋ค. ๋นจ๊ฐ๋ถ์ผ ๊ฒฝ์ฐ ์ ์งํ๊ณ , ์ด๋ก๋ถ์ผ ๊ฒฝ์ฐ ๋ค์ ํ๋์ ์ค๋นํ๋ค.
- ์ฅ์ ๋ฌผ ๊ฐ์ง ๋ฐ ํํผ: ๊ต์ฐจ๋ก๋ฅผ ์ง๋๋ฉฐ ์ ๋๋ก์์ ์์ ๊ฑฐ ๋๋ ์ฅ์ ๋ฌผ์ ๊ฐ์งํ๋ค. ์ฐจ์ ์ ๋ณ๊ฒฝํ๊ฑฐ๋ ์๋๋ฅผ ์กฐ์ ํ์ฌ ์ฅ์ ๋ฌผ์ ํํผํ๋ค.
- ๊ต์ฐจ๋ก ํต๊ณผ: ์ด๋ก๋ถ์ผ ๋ ๊ฐ์ํ๊ฑฐ๋ ์๋๋ฅผ ์ ์งํ๋ฉฐ ๊ต์ฐจ๋ก๋ฅผ ์์ ํ๊ฒ ํต๊ณผํ๋ค.
- ๋ชฉ์ ์ง ์ ๊ทผ ๋ฐ ์ฃผ์ฐจ: ๋ชฉ์ ์ง ๊ทผ์ฒ์ ๋๋ฌํ๋ฉด ์ฃผ์ฐจ ๊ณต๊ฐ์ ์ฐพ์ ์์ ํ๊ฒ ์ฐจ๋์ ์ฃผ์ฐจํ๋ค.
์ด 4๋จ๊ณ๋ ๋ฐ๋์ ์์์ ๋ง๊ฒ ์ด๋ฃจ์ด์ ธ์ผ ํ๋ค. ๋ง์ฝ ์์๊ฐ ๋ค๋ฐ๋๋ฉด ๋ค์๊ณผ ๊ฐ์ ์ํฉ์ด ๋ฐ์ํ๋ค.
์์ฐจ์ ์์ฌ๊ฒฐ์ ์ ์๊ฐ์ด ์ง๋จ์ ๋ฐ๋ผ ๋ณํํ๋ ํ๊ฒฝ ์์์ ์ต์ ์ ํ๋์ ์ ํํด์ผ ํ์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ์ค๋ฅ๋ฅผ ๋ดํฌํ ์ ์๋ค:
์ด๋ฌํ ์ค๋ฅ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด MDP๊ฐ ํ์ํ๋ค.
๊ฒฐ๋ก ์ ์ผ๋ก, MDP๋ ํ๊ฒฝ์ ๋์ ํน์ฑ์ ์ํ์ ์ผ๋ก ๋ชจ๋ธ๋งํ๊ณ , ๋ฏธ๋ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ คํ ์ต์ ์ ์ฑ ์ค๊ณ๋ฅผ ๊ฐ๋ฅํ๊ฒ ํ๋ฉฐ, ๋ถํ์ค์ฑ ์ฒ๋ฆฌ๋ฅผ ํตํด ํ๋ ๊ฒฐ๊ณผ๋ฅผ ํ๋ฅ ์ ์ผ๋ก ์์ธกํ ์ ์๋ค. ๋ํ, Bellman ๋ฐฉ์ ์์ ์ด์ฉํ ํจ์จ์ ์ธ ๊ณ์ฐ ๊ตฌ์กฐ๋ฅผ ์ ๊ณตํ๋ฉฐ, ์์จ์ฃผํ, ๋ก๋ด ์ ์ด, ๊ฒ์ AI ๋ฑ ๋ค์ํ ๋ฌธ์ ์ ์ผ๋ฐํ ๊ฐ๋ฅํ ํ๋ ์์ํฌ์ด๋ค.
๋ง๋ฅด์ฝํ ๊ณผ์ ์ ํ๋ฅ ๋ก ์ ์ธ ์ํ ์ ์ด ๊ณผ์ ์ ๋ชจ๋ธ๋งํ ์ํ์ ํ๋ ์์ํฌ์ด๋ค. ์ด๋ ํ์ฌ ์ํ๋ง์ผ๋ก ๋ค์ ์ํ๊ฐ ๊ฒฐ์ ๋๋ ํน์ฑ(๋ง๋ฅด์ฝํ ์ฑ์ง, Markov Property)์ ๊ฐ์ง๋ฉฐ, ์๊ฐ์ ๋ฐ๋ผ ๋ณํํ๋ ๋์ ์ธ ์์คํ ์ ํํํ๋ค. ๋ ๊ฐ๋จํ ๋งํด์, ์ด๋ ํ์ฌ ์ํ๋ง์ ๊ธฐ๋ฐ์ผ๋ก ๋ฏธ๋ ๊ฒฐ๊ณผ์ ๋ํ ์์ธก์ ํ ์ ์๋ ๊ณผ์ ์ด๋ฉฐ, ๊ฐ์ฅ ์ค์ํ ์ ์ ์ด๋ฌํ ์์ธก์ด ๊ณผ์ ์ ์ ์ฒด ์ด๋ ฅ์ ์๊ณ ์์ ๋ ํ ์ ์๋ ์์ธก๊ณผ ๋๊ฐ์ด ์ข๋ค๋ ๊ฒ ๋ํ ์์คํ ์ ํ์ฌ ์ํ๋ฅผ ์กฐ๊ฑด์ผ๋ก ๋ฏธ๋ ๋ฐ ๊ณผ๊ฑฐ ์ํ๋ ๋ ๋ฆฝ์ ์ด๋ค.
์ํ ์งํฉ (S)
์ํ ์ ์ด ํ๋ฅ (P(๐ ,๐ '))
์: ํ์ฌ ๋ ์จ๊ฐ ๋ง์์ผ ๋, ํ๋ฆผ์ผ๋ก ๋ณํ ํ๋ฅ ์ด 0.3, ๋น๋ก ๋ณํ ํ๋ฅ ์ด 0.2
๋ง๋ฅด์ฝํ ํน์ฑ์ ํ์ฌ ์ํ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ฏธ๋ ์ํ๋ ๊ณผ๊ฑฐ ์ํ์ ๋ ๋ฆฝ์ ์ผ๋ก ํ์ฌ ์ํ์ ์ํด์๋ง ๊ฒฐ์ ๋๋ค๋ ์ฑ์ง
ํ์ฌ ์ํ ๊ฐ ์ฃผ์ด์ก์ ๋, ๋ค์ ์ํ๊ฐ ๋ฐ์ํ ํ๋ฅ ์ ๋ก ๋ํ๋ผ ์ ์๋ค.
๋ง๋ฅด์ฝํ ๊ณผ์ ์ ๋ณต์กํ ๋์ ์์คํ ์ ๊ธฐ์ด์ ์ธ ๋ชจ๋ธ๋ก, ์ด๋ฅผ ํ์ฅํ๋ฉด ๋ณด์์ ํฌํจํ ๋ง๋ฅด์ฝํ ๋ณด์ ๊ณผ์ (MRP), ํ๋์ ํฌํจํ ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)๋ก ๋ฐ์ ํ๋ค. ์ด๋ฅผ ํตํด ๋ ๋ณต์กํ ์์ฐจ์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ ์ ์๋ค.
๋ง๋ฅด์ฝํ ๋ณด์ ๊ณผ์ (MRP)์ ๋ง๋ฅด์ฝํ ๊ณผ์ (MP)์ ๋ณด์ ํจ์(Reward Function)๋ฅผ ์ถ๊ฐํ์ฌ ์ํ์์ ์ป๋ ๋ณด์์ ํ๊ฐํ ์ ์๋๋ก ํ์ฅํ ๋ชจ๋ธ์ด๋ค. ์ด๋ฅผ ํตํด ์ํ์ ๊ฐ์น๋ฅผ ๊ณ์ฐํ๊ณ , ์ฅ๊ธฐ์ ์ธ ๋ณด์์ ํ๊ฐํ ์ ์๋ ์๋จ์ ์ ๊ณตํ๋ค. ์ฝ๊ฒ ๋งํ๋ฉด Return๊ณผ ๊ฐ์น ํจ์(Value Function)๋ฅผ ์ด์ฉํ์ฌ ์ฅ๊ธฐ์ ์ธ ๋ณด์์ ์์ธกํ ์ ์๋ค.
์ํ ์งํฉ (S)
์ํ ์ ์ด ํ๋ฅ (P(๐ ,๐ '))
๋ณด์ ํจ์
ํ ์ธ์จ (๐พ)
ํน์ ์ํ ๐ ์์ ์์ํ์ ๋, ์ป์ ์ ์๋ ๊ธฐ๋ ๋ณด์์ ์ ์ํ๋ ํจ์๋ก (๋ ๊ธฐ๋๊ฐ์ ์๋ฏธ) ์ด๋ค. ์ฆ, ์ฐ์ ์ํ ๊ฐ์น ํจ์๋ฅผ ์๊ธฐ ์ ์ Return()๊ณผ Episode์ ๊ฐ๋ ์ ์์์ผํ๋ค.
Return()
Return()์ ํน์ ์์ ๐ก์์ ์์ํ์ฌ ๋ฏธ๋์ ๋ฐ์ ๋์ ๋ณด์์ ์๋ฏธ
Episode(t)
๊ฐํํ์ต์์ ํ๋์ ๊ณผ์ ์ด ์์๋๊ณ ์ข
๋ฃ๋๋ ์ผ๋ จ์ ์ํ(State) ๋ฐ ํ๋(Action) ์ํ์ค๋ฅผ ์๋ฏธ โ ์์ ์ํ์์ ์์ํ์ฌ ์ข
๋ฃ ์ํ(Terminal State)์ ๋๋ฌํ ๋๊น์ง์ ๊ณผ์
์ ์์ ํ์ฌ ์ํ์์ ์ป๋ ๋ณด์ ๊ณผ ํ ์ธ๋ ๋ค์ ์ํ์ ๊ธฐ๋ ๊ฐ์น ์ ํฉ์ผ๋ก ๋ํ๋ผ ์ ์์์ ์๋ฏธํ๋ค. Bellman ๋ฐฉ์ ์์ ํ์ฉํ๋ฉด ์ํ ๊ฐ์น ํจ์๋ฅผ ์ฌ๊ท์ ์ผ๋ก ๊ณ์ฐํ ์ ์์ผ๋ฉฐ Bellman ๋ฐฉ์ ์์ ์ผ๋ฐ์ ์ธ ํํ๋ ๋ค์๊ณผ ๊ฐ๋ค.
์ฌ๊ธฐ์,
R(s) : ํ์ฌ ์ํ์์ ๊ธฐ๋๋๋ ์ฆ๊ฐ์ ์ธ ๋ณด์
P(s'|s) : ํ์ฌ ์ํ์์ ๋ค์ ์ํ๋ก ์ ์ด๋ ํ๋ฅ
: ๋ค์ ์ํ์ ๊ธฐ๋ ๊ฐ์น์ ํ ์ธ์จ์ ์ ์ฉํ ๊ฐ
์ด ๋ฐฉ์ ์์ ์ด์ฉํ๋ฉด ๊ฐ ์ํ์ ๊ฐ์น๋ฅผ ์ฌ๊ท์ ์ผ๋ก ๊ณ์ฐํ ์ ์๋ค. ๊ฐํํ์ต์์๋ MRP๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ ์ ์ํ๋ฉฐ, ์ด๋ ์ต์ ์ ํ๋์ ์ฐพ๋ ๋ฐ ํ์ฉ๋๋ค.
๋ง๋ฅด์ฝํ ๊ฒฐ์ ๊ณผ์ (MDP)์ ๋ง๋ฅด์ฝํ ๋ณด์ ๊ณผ์ (MRP)์ ํ๋(Action)๊ณผ ์ ์ฑ (Policy)์ ์ถ๊ฐํ ๋ชจ๋ธ์ด๋ค. ์ด๋ ์์ฐจ์ ์์ฌ๊ฒฐ์ ๋ฌธ์ ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ค๊ณ๋ ํ๋ ์์ํฌ๋ก, ์์ด์ ํธ๊ฐ ์ํ์์ ํ๋์ ์ ํํ๊ณ ์ ์ฑ ์ ์ต์ ํํ์ฌ ์ต์ ์ ๋ณด์์ ์ป๋ ๋ฌธ์ ๋ฅผ ๋ค๋ฃฌ๋ค.
๊ตฌ์ฑ์์
์ํ ์งํฉ (S)
ํ๋ ์งํฉ (๐ด)
์ํ ์ ์ด ํ๋ฅ (P(๐ ,๐ '))
๋ณด์ ํจ์
ํ ์ธ์จ (๐พ)
์ ์ฑ ์ ์์ด์ ํธ๊ฐ ํน์ ์ํ์์ ์ด๋ค ํ๋์ ์ ํํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ์ ๋ต์ด๋ค.
- ๊ฒฐ์ ๋ก ์ ์ ์ฑ (Deterministic Policy)
๊ฐ์ ์ ๋ ฅ ์ํ์ ๋ํด ํญ์ ๋์ผํ ํ๋์ ์ถ๋ ฅํ๋ค.
์์ :- ํ๋ฅ ์ ์ ์ฑ (Stochastic Policy)
ํน์ ์ํ์์ ํ๋์ ํ๋ฅ ์ ์ผ๋ก ์ ํํ๋ค.
์์ :
MDP์ ๋ชฉํ๋ ์ด ๋ณด์์ ๊ธฐ๋๊ฐ์ ์ต๋ํํ๋ ์ต์ ์ ์ฑ ๐์ ์ฐพ๋ ๊ฒ
MDP์์๋ ๊ฐ ์ํ์ ํ๋์ ์ฅ๊ธฐ์ ์ธ ๊ธฐ๋ ๊ฐ์น๋ฅผ ๊ณ์ฐํ์ฌ ์ต์ ์ ์์ฌ๊ฒฐ์ ์ ์ํํ๋ฉฐ 2๊ฐ์ง๋ก ๋๋ ์ ์๋ค.
1. ์ํ ๊ฐ์น ํจ์
2. ํ๋ ๊ฐ์น ํจ์
Bellman ๋ฐฉ์ ์์ MDP์ ์ํ ๊ฐ์น ํจ์ ๐(๐ )๋ฅผ ์ฌ๊ท์ ์ผ๋ก ํํํ ์์ด๋ค.
์ด๋ฅผ ๋จ๊ณ๋ณ๋ก ๋ถ์ํ๋ฉด:
- ํ์ฌ ์ํ ๐ ์์ ํ๋ ๐๋ฅผ ์ ํํ๊ณ , ์ฆ๊ฐ์ ์ธ ๋ณด์ ๐ (๐ ,๐)๋ฅผ ๋ฐ๋๋ค.
- ํ๋ฅ ์ ์ผ๋ก ๋ค์ ์ํ ๐ โฒ๋ก ์ ์ด๋๋ฉฐ, ์ด ์ํ์์ ์ฅ๊ธฐ์ ์ธ ๊ธฐ๋ ๊ฐ์น
๐(๐ โฒ)๋ฅผ ์ป์ ์ ์๋ค.- ํ์ง๋ง ๋ฏธ๋ ๋ณด์์ ๊ฐ์น๋ ํ์ฌ๋ณด๋ค ๋ฎ๊ฒ ํ๊ฐ๋๋ฏ๋ก, ํ ์ธ์จ ๐พ๋ฅผ ์ ์ฉํ์ฌ ํ์ฌ ๊ฐ์น์ ๋ฐ์ํ๋ค.
์ด๋ฅผ ์์์ผ๋ก ๋ํ๋ด๋ฉด:
ํ์ง๋ง, ๋ชจ๋ ์ํ ์ ์ด๋ ํ๋ฅ ์ ์ด๋ฏ๋ก ์ด๋ฅผ ํ๋ฅ ์ ์ผ๋ก ๊ณ ๋ คํ์ฌ ๋ค์๊ณผ ๊ฐ์ด ํํํ ์ ์๋ค.
๋ํ, ์์ด์ ํธ๋ ์ ์ฑ ๐์ ๋ฐ๋ผ ํ๋ ๐๋ฅผ ์ ํํ๋ฏ๋ก, ์ด ํ๋ฅ ๊น์ง ๋ฐ์ํ๋ฉด:
๋ง์ง๋ง์ผ๋ก, ์ต์ ์ ์ฑ ์ ๋ฐ๋ฅธ๋ค๋ฉด ์ต์ ํ๋์ ์ ํํ๋ฏ๋ก, ์ต์ ์ํ ๊ฐ์น ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ํํ๋๋ค
์ํ ์ ์ด ํ๋ฅ (P(๐ ,๐ '))
ํ์ฌ ์ํ ๐ ์์ ๋ค์์ํ ๐ '๋ก ์ ์ด๋ ํ๋ฅ .
ํ ์ธ์จ (๐พ)
๋ฏธ๋ ๋ณด์์ ํ์ฌ ๊ฐ์น๋ก ํ๊ฐํ๋ ๊ณ์. โ ๋ฏธ๋ ๋ณด์์ ํ์ฌ ๊ฐ์น๋ฅผ ์กฐ์ ํ๋ ์ญํ
์ ์ฑ
(๐)
์ ์ฑ
์ ์์ด์ ํธ๊ฐ ํน์ ์ํ์์ ์ด๋ค ํ๋์ ์ ํํ ์ง๋ฅผ ๊ฒฐ์ ํ๋ ์ ๋ต
Return()
ํน์ ์์ ๐ก์์ ์์ํ์ฌ ๋ฏธ๋์ ๋ฐ์ ๋์ ๋ณด์์ ์๋ฏธ
Episode(t)
๊ฐํํ์ต์์ ํ๋์ ๊ณผ์ ์ด ์์๋๊ณ ์ข
๋ฃ๋๋ ์ผ๋ จ์ ์ํ(State) ๋ฐ ํ๋(Action) ์ํ์ค๋ฅผ ์๋ฏธ โ ์์ ์ํ์์ ์์ํ์ฌ ์ข
๋ฃ ์ํ(Terminal State)์ ๋๋ฌํ ๋๊น์ง์ ๊ณผ์