๐ŸŽ“ ๊ฐœ์š”

๊ฐ•ํ™”ํ•™์Šต์€ ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ๊ณผ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ์‹œํ–‰์ฐฉ์˜ค๋ฅผ ํ†ตํ•ด ์ตœ์ ์˜ ํ–‰๋™์„ ํ•™์Šตํ•˜๋Š” ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ • ๋ฌธ์ œ์ด๋‹ค. ์ด๋Ÿฌํ•œ ๋ฌธ์ œ๋ฅผ ํšจ๊ณผ์ ์œผ๋กœ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ํ™˜๊ฒฝ์˜ ๋ณ€ํ™”๋ฅผ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•ด์•ผ ํ•˜๋ฉฐ, ์ด๋ฅผ ์„ค๋ช…ํ•˜๋Š” ํ•ต์‹ฌ ๊ฐœ๋…์ด ๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •(Markov Process)์ด๋‹ค.

๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •์€ ํ˜„์žฌ ์ƒํƒœ๋งŒ์œผ๋กœ ๋ฏธ๋ž˜ ์ƒํƒœ๋ฅผ ๊ฒฐ์ •ํ•  ์ˆ˜ ์žˆ๋Š” ์„ฑ์งˆ(๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ, Markov Property)์„ ๊ฐ€์ง„๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—์ด์ „ํŠธ๋Š” ๊ณผ๊ฑฐ์˜ ๋ชจ๋“  ์ •๋ณด๋ฅผ ๊ธฐ์–ตํ•˜์ง€ ์•Š๊ณ ๋„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ํšจ์œจ์„ฑ์„ ์ œ๊ณตํ•œ๋‹ค. ๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •์„ ํ™•์žฅํ•œ ๋งˆ๋ฅด์ฝ”ํ”„ ๋ณด์ƒ ๊ณผ์ •(MRP)์€ ์ƒํƒœ๋ณ„๋กœ ์žฅ๊ธฐ์ ์ธ ๋ณด์ƒ์„ ํ‰๊ฐ€ํ•˜๋Š” ๋ฐ ํ™œ์šฉ๋˜๋ฉฐ, ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)์€ ์—์ด์ „ํŠธ๊ฐ€ ์ตœ์ ์˜ ํ–‰๋™์„ ์„ ํƒํ•˜์—ฌ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •์„ ํ•ด๊ฒฐํ•˜๋Š” ๊ฐ•ํ™”ํ•™์Šต์˜ ํ•ต์‹ฌ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, MDP๋Š” ๊ฐ•ํ™”ํ•™์Šต์—์„œ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •์„ ๋ชจ๋ธ๋งํ•˜๋Š” ๊ธฐ์ดˆ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์ด๋ฅผ ๊นŠ์ด ์ดํ•ดํ•˜๋Š” ๊ฒƒ์ด ๊ฐ•ํ™”ํ•™์Šต์„ ์„ค๊ณ„ํ•˜๊ณ  ๊ตฌํ˜„ํ•˜๋Š” ๋ฐ ํ•„์ˆ˜์ ์ด๋‹ค. ๋‹ค์Œ์œผ๋กœ, ์ด๋Ÿฌํ•œ ๊ฐ ๊ฐœ๋…์„ ๊ตฌ์ฒด์ ์œผ๋กœ ์‚ดํŽด๋ณธ๋‹ค.

๐ŸŽ“ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •์ด๋ž€?

์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ํ™˜๊ฒฝ ์†์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ์ผ๋ จ์˜ ํ–‰๋™์„ ์„ ํƒํ•˜์—ฌ ์ตœ์ ์˜ ๋ชฉํ‘œ๋ฅผ ๋‹ฌ์„ฑํ•˜๋Š” ๋ฌธ์ œ๋ฅผ ๋งํ•œ๋‹ค.

์ž์œจ์ฃผํ–‰ ์ฐจ๋Ÿ‰์˜ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •์„ ์˜ˆ์‹œ๋กœ ๋“ค์–ด๋ณด์ž.

  1. ์‹ ํ˜ธ๋“ฑ ๊ด€์ฐฐ: ์ฐจ๋Ÿ‰์ด ๊ต์ฐจ๋กœ์— ์ ‘๊ทผํ•˜๋ฉฐ ์‹ ํ˜ธ๋“ฑ์˜ ์ƒํƒœ๋ฅผ ํ™•์ธํ•œ๋‹ค. ๋นจ๊ฐ„๋ถˆ์ผ ๊ฒฝ์šฐ ์ •์ง€ํ•˜๊ณ , ์ดˆ๋ก๋ถˆ์ผ ๊ฒฝ์šฐ ๋‹ค์Œ ํ–‰๋™์„ ์ค€๋น„ํ•œ๋‹ค.
  2. ์žฅ์• ๋ฌผ ๊ฐ์ง€ ๋ฐ ํšŒํ”ผ: ๊ต์ฐจ๋กœ๋ฅผ ์ง€๋‚˜๋ฉฐ ์•ž ๋„๋กœ์—์„œ ์ž์ „๊ฑฐ ๋˜๋Š” ์žฅ์• ๋ฌผ์„ ๊ฐ์ง€ํ•œ๋‹ค. ์ฐจ์„ ์„ ๋ณ€๊ฒฝํ•˜๊ฑฐ๋‚˜ ์†๋„๋ฅผ ์กฐ์ •ํ•˜์—ฌ ์žฅ์• ๋ฌผ์„ ํšŒํ”ผํ•œ๋‹ค.
  3. ๊ต์ฐจ๋กœ ํ†ต๊ณผ: ์ดˆ๋ก๋ถˆ์ผ ๋•Œ ๊ฐ€์†ํ•˜๊ฑฐ๋‚˜ ์†๋„๋ฅผ ์œ ์ง€ํ•˜๋ฉฐ ๊ต์ฐจ๋กœ๋ฅผ ์•ˆ์ „ํ•˜๊ฒŒ ํ†ต๊ณผํ•œ๋‹ค.
  4. ๋ชฉ์ ์ง€ ์ ‘๊ทผ ๋ฐ ์ฃผ์ฐจ: ๋ชฉ์ ์ง€ ๊ทผ์ฒ˜์— ๋„๋‹ฌํ•˜๋ฉด ์ฃผ์ฐจ ๊ณต๊ฐ„์„ ์ฐพ์•„ ์•ˆ์ „ํ•˜๊ฒŒ ์ฐจ๋Ÿ‰์„ ์ฃผ์ฐจํ•œ๋‹ค.

์ด 4๋‹จ๊ณ„๋Š” ๋ฐ˜๋“œ์‹œ ์ˆœ์„œ์— ๋งž๊ฒŒ ์ด๋ฃจ์–ด์ ธ์•ผ ํ•œ๋‹ค. ๋งŒ์•ฝ ์ˆœ์„œ๊ฐ€ ๋’ค๋ฐ”๋€Œ๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•œ๋‹ค.

  • โ‘ฃ โ†’ โ‘ข โ†’ โ‘ก โ†’ โ‘ : ์ฐจ๋Ÿ‰์ด ์ฃผ์ฐจ๋ฅผ ๋จผ์ € ์‹œ๋„ํ•œ ๋’ค ๊ต์ฐจ๋กœ๋ฅผ ํ†ต๊ณผํ•˜๊ณ  ์žฅ์• ๋ฌผ์„ ํšŒํ”ผํ•œ ๋‹ค์Œ ๋งˆ์ง€๋ง‰์œผ๋กœ ์‹ ํ˜ธ๋ฅผ ๊ด€์ฐฐํ•œ๋‹ค.
    ๋ฌธ์ œ์ : ์ฃผ์ฐจ ์™„๋ฃŒ ํ›„ ๊ต์ฐจ๋กœ๋ฅผ ๋‹ค์‹œ ํ†ต๊ณผํ•˜๋ ค๋Š” ๋น„๋…ผ๋ฆฌ์  ํ–‰๋™๊ณผ ์‹ ํ˜ธ๋ฅผ ๋ฌด์‹œํ•˜๋Š” ์ƒํ™ฉ์ด ๋ฐœ์ƒํ•œ๋‹ค.
  • โ‘ก โ†’ โ‘ฃ โ†’ โ‘ข โ†’ โ‘ : ์žฅ์• ๋ฌผ์„ ํšŒํ”ผํ•œ ๋’ค ์ฃผ์ฐจ๋ฅผ ์‹œ๋„ํ•˜๊ณ  ๊ต์ฐจ๋กœ๋ฅผ ํ†ต๊ณผํ•˜๋ฉฐ ๋งˆ์ง€๋ง‰์— ์‹ ํ˜ธ๋ฅผ ํ™•์ธํ•œ๋‹ค.
    ๋ฌธ์ œ์ : ์‹ ํ˜ธ ํ™•์ธ ์—†์ด ๊ต์ฐจ๋กœ๋ฅผ ํ†ต๊ณผํ•˜๋ ค๋Š” ์œ„ํ—˜ํ•œ ํ–‰๋™๊ณผ ์ฃผํ–‰ ํ๋ฆ„์˜ ํ˜ผ๋ž€์ด ๋ฐœ์ƒํ•œ๋‹ค

MDP๊ฐ€ ๊ฐ•ํ™”ํ•™์Šต์— ๊ผญ ํ•„์š”ํ•œ ์ด์œ 

์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ •์€ ์‹œ๊ฐ„์ด ์ง€๋‚จ์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ํ™˜๊ฒฝ ์†์—์„œ ์ตœ์ ์˜ ํ–‰๋™์„ ์„ ํƒํ•ด์•ผ ํ•˜์ง€๋งŒ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ์˜ค๋ฅ˜๋ฅผ ๋‚ดํฌํ•  ์ˆ˜ ์žˆ๋‹ค:

  • ๋‹จ๊ธฐ์ ์ธ ๋ณด์ƒ ์ตœ์ ํ™”: ์ฆ‰๊ฐ์ ์ธ ๋ณด์ƒ๋งŒ์„ ๊ณ ๋ คํ•˜์—ฌ ์žฅ๊ธฐ์ ์ธ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ„๊ณผํ•˜๋Š” ๋ฌธ์ œ.
  • ๋ถˆํ™•์‹ค์„ฑ ๊ฐ„๊ณผ: ํ–‰๋™ ๊ฒฐ๊ณผ๊ฐ€ ํ™•๋ฅ ์ ์œผ๋กœ ๋‚˜ํƒ€๋‚  ์ˆ˜ ์žˆ์Œ์—๋„ ์ด๋ฅผ ๋ฌด์‹œํ•˜๊ณ  ๊ฒฐ์ •ํ•˜๋Š” ๋ฌธ์ œ.
  • ๋ณต์žก์„ฑ ์ฆ๊ฐ€: ์‹œ๊ฐ„์˜ ํ๋ฆ„์— ๋”ฐ๋ผ ์ƒํƒœ์™€ ํ–‰๋™์˜ ์กฐํ•ฉ์ด ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•ด ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ์ด ์–ด๋ ค์›Œ์ง€๋Š” ๋ฌธ์ œ.
  • ํ™˜๊ฒฝ ๋ณ€ํ™” ๋ฏธ๋ฐ˜์˜: ํ™˜๊ฒฝ์ด ๋™์ ์œผ๋กœ ๋ณ€ํ™”ํ•จ์—๋„ ๊ณ ์ •๋œ ์ •์ฑ…์„ ์‚ฌ์šฉํ•ด ์ตœ์ ํ™”์— ์‹คํŒจํ•˜๋Š” ๋ฌธ์ œ.

์ด๋Ÿฌํ•œ ์˜ค๋ฅ˜๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด MDP๊ฐ€ ํ•„์š”ํ•˜๋‹ค.

๊ฒฐ๋ก ์ ์œผ๋กœ, MDP๋Š” ํ™˜๊ฒฝ์˜ ๋™์  ํŠน์„ฑ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๊ณ , ๋ฏธ๋ž˜ ๊ฒฐ๊ณผ๋ฅผ ๊ณ ๋ คํ•œ ์ตœ์  ์ •์ฑ… ์„ค๊ณ„๋ฅผ ๊ฐ€๋Šฅํ•˜๊ฒŒ ํ•˜๋ฉฐ, ๋ถˆํ™•์‹ค์„ฑ ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ํ–‰๋™ ๊ฒฐ๊ณผ๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค. ๋˜ํ•œ, Bellman ๋ฐฉ์ •์‹์„ ์ด์šฉํ•œ ํšจ์œจ์ ์ธ ๊ณ„์‚ฐ ๊ตฌ์กฐ๋ฅผ ์ œ๊ณตํ•˜๋ฉฐ, ์ž์œจ์ฃผํ–‰, ๋กœ๋ด‡ ์ œ์–ด, ๊ฒŒ์ž„ AI ๋“ฑ ๋‹ค์–‘ํ•œ ๋ฌธ์ œ์— ์ผ๋ฐ˜ํ™” ๊ฐ€๋Šฅํ•œ ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค.

๐ŸŽ“ Markov Process(MP, ๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •)

๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •์€ ํ™•๋ฅ ๋ก ์ ์ธ ์ƒํƒœ ์ „์ด ๊ณผ์ •์„ ๋ชจ๋ธ๋งํ•œ ์ˆ˜ํ•™์  ํ”„๋ ˆ์ž„์›Œํฌ์ด๋‹ค. ์ด๋Š” ํ˜„์žฌ ์ƒํƒœ๋งŒ์œผ๋กœ ๋‹ค์Œ ์ƒํƒœ๊ฐ€ ๊ฒฐ์ •๋˜๋Š” ํŠน์„ฑ(๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ, Markov Property)์„ ๊ฐ€์ง€๋ฉฐ, ์‹œ๊ฐ„์— ๋”ฐ๋ผ ๋ณ€ํ™”ํ•˜๋Š” ๋™์ ์ธ ์‹œ์Šคํ…œ์„ ํ‘œํ˜„ํ•œ๋‹ค. ๋” ๊ฐ„๋‹จํžˆ ๋งํ•ด์„œ, ์ด๋Š” ํ˜„์žฌ ์ƒํƒœ๋งŒ์„ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฏธ๋ž˜ ๊ฒฐ๊ณผ์— ๋Œ€ํ•œ ์˜ˆ์ธก์„ ํ•  ์ˆ˜ ์žˆ๋Š” ๊ณผ์ •์ด๋ฉฐ, ๊ฐ€์žฅ ์ค‘์š”ํ•œ ์ ์€ ์ด๋Ÿฌํ•œ ์˜ˆ์ธก์ด ๊ณผ์ •์˜ ์ „์ฒด ์ด๋ ฅ์„ ์•Œ๊ณ  ์žˆ์„ ๋•Œ ํ•  ์ˆ˜ ์žˆ๋Š” ์˜ˆ์ธก๊ณผ ๋˜‘๊ฐ™์ด ์ข‹๋‹ค๋Š” ๊ฒƒ ๋˜ํ•œ ์‹œ์Šคํ…œ์˜ ํ˜„์žฌ ์ƒํƒœ๋ฅผ ์กฐ๊ฑด์œผ๋กœ ๋ฏธ๋ž˜ ๋ฐ ๊ณผ๊ฑฐ ์ƒํƒœ๋Š” ๋…๋ฆฝ์ ์ด๋‹ค.

๊ตฌ์„ฑ์š”์†Œ

์ƒํƒœ ์ง‘ํ•ฉ (S)

  • ์‹œ์Šคํ…œ์ด ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์ƒํƒœ์˜ ์ง‘ํ•ฉ.
  • ์˜ˆ: ์ž์œจ์ฃผํ–‰ ์ฐจ๋Ÿ‰์˜ ์œ„์น˜(๊ต์ฐจ๋กœ, ์ง์„  ๋„๋กœ, ๋ชฉ์ ์ง€ ๋“ฑ), ๋‚ ์”จ ์ƒํƒœ(๋ง‘์Œ, ํ๋ฆผ, ๋น„ ๋“ฑ).

์ƒํƒœ ์ „์ด ํ™•๋ฅ  (P(๐‘ ,๐‘ '))

  • ํ˜„์žฌ ์ƒํƒœ ๐‘ ์—์„œ ๋‹ค์Œ์ƒํƒœ ๐‘ '๋กœ ์ „์ด๋  ํ™•๋ฅ .
  • ์ „์ด๋Š” ํ™•๋ฅ ์ ์œผ๋กœ ๊ฒฐ์ •๋˜๋ฉฐ, ์ƒํƒœ ์ „์ด ํ™•๋ฅ ์€ ๋‹ค์Œ ์กฐ๊ฑด์„ ๋งŒ์กฑํ•œ๋‹ค:

    P(s,sโ€ฒ)=P[st+1=sโ€ฒโˆฃst=s]P(s, s') = P[s_{t+1} = s' \mid s_t = s]
    ์˜ˆ: ํ˜„์žฌ ๋‚ ์”จ๊ฐ€ ๋ง‘์Œ์ผ ๋•Œ, ํ๋ฆผ์œผ๋กœ ๋ณ€ํ•  ํ™•๋ฅ ์ด 0.3, ๋น„๋กœ ๋ณ€ํ•  ํ™•๋ฅ ์ด 0.2

Markov Property(๋งˆ๋ฅด์ฝ”ํ”„ ์„ฑ์งˆ)

๋งˆ๋ฅด์ฝ”ํ”„ ํŠน์„ฑ์€ ํ˜„์žฌ ์ƒํƒœ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋ฏธ๋ž˜ ์ƒํƒœ๋Š” ๊ณผ๊ฑฐ ์ƒํƒœ์™€ ๋…๋ฆฝ์ ์œผ๋กœ ํ˜„์žฌ ์ƒํƒœ์— ์˜ํ•ด์„œ๋งŒ ๊ฒฐ์ •๋œ๋‹ค๋Š” ์„ฑ์งˆ

P(st+1โˆฃs)=P[st+1โˆฃst]P(s_{t+1}\mid s) = P[s_{t+1} \mid s_t]
ํ˜„์žฌ ์ƒํƒœ sts_t๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋‹ค์Œ ์ƒํƒœ๊ฐ€ ๋ฐœ์ƒํ•  ํ™•๋ฅ ์€ P(st+1โˆฃst)P(s_{t+1} \mid s_t)๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ๋‹ค.

๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •์€ ๋ณต์žกํ•œ ๋™์  ์‹œ์Šคํ…œ์˜ ๊ธฐ์ดˆ์ ์ธ ๋ชจ๋ธ๋กœ, ์ด๋ฅผ ํ™•์žฅํ•˜๋ฉด ๋ณด์ƒ์„ ํฌํ•จํ•œ ๋งˆ๋ฅด์ฝ”ํ”„ ๋ณด์ƒ ๊ณผ์ •(MRP), ํ–‰๋™์„ ํฌํ•จํ•œ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)๋กœ ๋ฐœ์ „ํ•œ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋” ๋ณต์žกํ•œ ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ • ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•  ์ˆ˜ ์žˆ๋‹ค.

๐ŸŽ“ ๋งˆ๋ฅด์ฝ”ํ”„ ๋ณด์ƒ ๊ณผ์ •(Markov Reward Process, MRP)

๋งˆ๋ฅด์ฝ”ํ”„ ๋ณด์ƒ ๊ณผ์ •(MRP)์€ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ณผ์ •(MP)์— ๋ณด์ƒ ํ•จ์ˆ˜(Reward Function)๋ฅผ ์ถ”๊ฐ€ํ•˜์—ฌ ์ƒํƒœ์—์„œ ์–ป๋Š” ๋ณด์ƒ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋„๋ก ํ™•์žฅํ•œ ๋ชจ๋ธ์ด๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์ƒํƒœ์˜ ๊ฐ€์น˜๋ฅผ ๊ณ„์‚ฐํ•˜๊ณ , ์žฅ๊ธฐ์ ์ธ ๋ณด์ƒ์„ ํ‰๊ฐ€ํ•  ์ˆ˜ ์žˆ๋Š” ์ˆ˜๋‹จ์„ ์ œ๊ณตํ•œ๋‹ค. ์‰ฝ๊ฒŒ ๋งํ•˜๋ฉด Return๊ณผ ๊ฐ€์น˜ ํ•จ์ˆ˜(Value Function)๋ฅผ ์ด์šฉํ•˜์—ฌ ์žฅ๊ธฐ์ ์ธ ๋ณด์ƒ์„ ์˜ˆ์ธกํ•  ์ˆ˜ ์žˆ๋‹ค.

๊ตฌ์„ฑ์š”์†Œ

์ƒํƒœ ์ง‘ํ•ฉ (S)

  • ์‹œ์Šคํ…œ์ด ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์ƒํƒœ์˜ ์ง‘ํ•ฉ.

์ƒํƒœ ์ „์ด ํ™•๋ฅ  (P(๐‘ ,๐‘ '))

  • ํ˜„์žฌ ์ƒํƒœ ๐‘ ์—์„œ ๋‹ค์Œ์ƒํƒœ ๐‘ '๋กœ ์ „์ด๋  ํ™•๋ฅ .

๋ณด์ƒ ํ•จ์ˆ˜

R(s)=E[Rt+1โˆฃSt=s]R(s) = \mathbb{E}[R_{t+1} | S_t = s]
  • ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ํŠน์ • ์ƒํƒœ์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ›๋Š” ๋ณด์ƒ์„ ์ •์˜
  • ์ด๋Š” ์ƒํƒœ ๐‘ ์—์„œ์˜ ๊ธฐ๋Œ€ ๋ณด์ƒ์„ ์˜๋ฏธํ•˜๋ฉฐ, ํŠน์ • ์ƒํƒœ์—์„œ ํ‰๊ท ์ ์œผ๋กœ ๋ฐ›๊ฒŒ ๋  ๋ณด์ƒ์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋‚˜ํƒ€๋‚ธ ๊ฒƒ

ํ• ์ธ์œจ (๐›พ)

  • ๋ฏธ๋ž˜ ๋ณด์ƒ์„ ํ˜„์žฌ ๊ฐ€์น˜๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ณ„์ˆ˜. โ†’ ๋ฏธ๋ž˜ ๋ณด์ƒ์˜ ํ˜„์žฌ ๊ฐ€์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ์—ญํ• 

์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜(State Value Function)

ํŠน์ • ์ƒํƒœ ๐‘ ์—์„œ ์‹œ์ž‘ํ–ˆ์„ ๋•Œ, ์–ป์„ ์ˆ˜ ์žˆ๋Š” ๊ธฐ๋Œ€ ๋ณด์ƒ์„ ์ •์˜ํ•˜๋Š” ํ•จ์ˆ˜๋กœ v(s)=E[GtโˆฃSt=s]v(s) = \mathbb{E}[G_t | S_t = s](E\mathbb{E}๋Š” ๊ธฐ๋Œ“๊ฐ’์„ ์˜๋ฏธ) ์ด๋‹ค. ์ฆ‰, ์šฐ์„  ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ์•Œ๊ธฐ ์ „์— Return(GtG_t)๊ณผ Episode์˜ ๊ฐœ๋…์„ ์•Œ์•„์•ผํ•œ๋‹ค.

  • Return(GtG_t)
    Return(GtG_t)์€ ํŠน์ • ์‹œ์  ๐‘ก์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ๋ฏธ๋ž˜์— ๋ฐ›์„ ๋ˆ„์  ๋ณด์ƒ์„ ์˜๋ฏธ

    Gt=โˆ‘k=0Tโˆ’1ฮณkRt+k+1=Rt+1+ฮณRt+2+ฮณ2Rt+3+โ‹ฏ+ฮณTโˆ’1RTG_t = \sum_{k=0}^{T-1} \gamma^k R_{t+k+1} = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots + \gamma^{T-1} R_T
  • Episode(t)
    ๊ฐ•ํ™”ํ•™์Šต์—์„œ ํ•˜๋‚˜์˜ ๊ณผ์ •์ด ์‹œ์ž‘๋˜๊ณ  ์ข…๋ฃŒ๋˜๋Š” ์ผ๋ จ์˜ ์ƒํƒœ(State) ๋ฐ ํ–‰๋™(Action) ์‹œํ€€์Šค๋ฅผ ์˜๋ฏธ โ†’ ์‹œ์ž‘ ์ƒํƒœ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ข…๋ฃŒ ์ƒํƒœ(Terminal State)์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€์˜ ๊ณผ์ •

์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜์˜ Bellman ๋ฐฉ์ •์‹ ํ‘œํ˜„

v(s)=E[GtโˆฃSt=s]v(s) = \mathbb{E} [ G_t | S_t = s ]
=E[Rt+1+ฮณRt+2+ฮณ2Rt+3+โ€ฆโˆฃSt=s]= \mathbb{E} [ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots | S_t = s ]
=E[Rt+1+ฮณ(Rt+2+ฮณRt+3+โ€ฆโ€‰)โˆฃSt=s]= \mathbb{E} [ R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \dots) | S_t = s ]
=E[Rt+1+ฮณGt+1โˆฃSt=s]= \mathbb{E} [ R_{t+1} + \gamma G_{t+1} | S_t = s ]
=E[Rt+1+ฮณv(St+1)โˆฃSt=s]= \mathbb{E} [ R_{t+1} + \gamma v(S_{t+1}) | S_t = s ]

์œ„ ์‹์€ ํ˜„์žฌ ์ƒํƒœ์—์„œ ์–ป๋Š” ๋ณด์ƒ Rt+1R_{t+1}๊ณผ ํ• ์ธ๋œ ๋‹ค์Œ ์ƒํƒœ์˜ ๊ธฐ๋Œ€ ๊ฐ€์น˜ ฮณv(St+1)\gamma v(S_{t+1})์˜ ํ•ฉ์œผ๋กœ ๋‚˜ํƒ€๋‚ผ ์ˆ˜ ์žˆ์Œ์„ ์˜๋ฏธํ•œ๋‹ค. Bellman ๋ฐฉ์ •์‹์„ ํ™œ์šฉํ•˜๋ฉด ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ Bellman ๋ฐฉ์ •์‹์˜ ์ผ๋ฐ˜์ ์ธ ํ˜•ํƒœ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

v(s)=R(s)+ฮณโˆ‘sโ€ฒP(sโ€ฒโˆฃs)v(sโ€ฒ)v(s) = R(s) + \gamma \sum_{s'} P(s'|s) v(s')

์—ฌ๊ธฐ์„œ,

R(s) : ํ˜„์žฌ ์ƒํƒœ์—์„œ ๊ธฐ๋Œ€๋˜๋Š” ์ฆ‰๊ฐ์ ์ธ ๋ณด์ƒ
P(s'|s) : ํ˜„์žฌ ์ƒํƒœ์—์„œ ๋‹ค์Œ ์ƒํƒœ๋กœ ์ „์ด๋  ํ™•๋ฅ 
ฮณv(sโ€ฒ)\gamma v(s') : ๋‹ค์Œ ์ƒํƒœ์˜ ๊ธฐ๋Œ€ ๊ฐ€์น˜์— ํ• ์ธ์œจ์„ ์ ์šฉํ•œ ๊ฐ’

์ด ๋ฐฉ์ •์‹์„ ์ด์šฉํ•˜๋ฉด ๊ฐ ์ƒํƒœ์˜ ๊ฐ€์น˜๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ๊ณ„์‚ฐํ•  ์ˆ˜ ์žˆ๋‹ค. ๊ฐ•ํ™”ํ•™์Šต์—์„œ๋Š” MRP๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)์„ ์ •์˜ํ•˜๋ฉฐ, ์ด๋Š” ์ตœ์ ์˜ ํ–‰๋™์„ ์ฐพ๋Š” ๋ฐ ํ™œ์šฉ๋œ๋‹ค.

๐ŸŽ“ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(Markov Decision Process, MDP)

๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)์€ ๋งˆ๋ฅด์ฝ”ํ”„ ๋ณด์ƒ ๊ณผ์ •(MRP)์— ํ–‰๋™(Action)๊ณผ ์ •์ฑ…(Policy)์„ ์ถ”๊ฐ€ํ•œ ๋ชจ๋ธ์ด๋‹ค. ์ด๋Š” ์ˆœ์ฐจ์  ์˜์‚ฌ๊ฒฐ์ • ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ์„ค๊ณ„๋œ ํ”„๋ ˆ์ž„์›Œํฌ๋กœ, ์—์ด์ „ํŠธ๊ฐ€ ์ƒํƒœ์—์„œ ํ–‰๋™์„ ์„ ํƒํ•˜๊ณ  ์ •์ฑ…์„ ์ตœ์ ํ™”ํ•˜์—ฌ ์ตœ์ ์˜ ๋ณด์ƒ์„ ์–ป๋Š” ๋ฌธ์ œ๋ฅผ ๋‹ค๋ฃฌ๋‹ค.

๊ตฌ์„ฑ์š”์†Œ
์ƒํƒœ ์ง‘ํ•ฉ (S)

  • ์‹œ์Šคํ…œ์ด ๊ฐ€์งˆ ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ์ƒํƒœ์˜ ์ง‘ํ•ฉ.

ํ–‰๋™ ์ง‘ํ•ฉ (๐ด)

  • ์—์ด์ „ํŠธ๊ฐ€ ์ƒํƒœ์—์„œ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ๋ชจ๋“  ํ–‰๋™์˜ ์ง‘ํ•ฉ.

์ƒํƒœ ์ „์ด ํ™•๋ฅ  (P(๐‘ ,๐‘ '))

  • ํ˜„์žฌ ์ƒํƒœ ๐‘ ์—์„œ ๋‹ค์Œ์ƒํƒœ ๐‘ '๋กœ ์ „์ด๋  ํ™•๋ฅ .

๋ณด์ƒ ํ•จ์ˆ˜

  • ๋ณด์ƒ ํ•จ์ˆ˜๋Š” ํŠน์ • ์ƒํƒœ์—์„œ ์—์ด์ „ํŠธ๊ฐ€ ๋ฐ›๋Š” ๋ณด์ƒ์„ ์ •์˜

ํ• ์ธ์œจ (๐›พ)

  • ๋ฏธ๋ž˜ ๋ณด์ƒ์„ ํ˜„์žฌ ๊ฐ€์น˜๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ณ„์ˆ˜. โ†’ ๋ฏธ๋ž˜ ๋ณด์ƒ์˜ ํ˜„์žฌ ๊ฐ€์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ์—ญํ• 

์ •์ฑ…(๐œ‹)

์ •์ฑ…์€ ์—์ด์ „ํŠธ๊ฐ€ ํŠน์ • ์ƒํƒœ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์„ ํƒํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ์ „๋žต์ด๋‹ค.

  • ๊ฒฐ์ •๋ก ์  ์ •์ฑ…(Deterministic Policy)
    ๊ฐ™์€ ์ž…๋ ฅ ์ƒํƒœ์— ๋Œ€ํ•ด ํ•ญ์ƒ ๋™์ผํ•œ ํ–‰๋™์„ ์ถœ๋ ฅํ•œ๋‹ค.
    ์ˆ˜์‹ : ฯ€(s)=a\pi(s) = a
  • ํ™•๋ฅ ์  ์ •์ฑ…(Stochastic Policy)
    ํŠน์ • ์ƒํƒœ์—์„œ ํ–‰๋™์„ ํ™•๋ฅ ์ ์œผ๋กœ ์„ ํƒํ•œ๋‹ค.
    ์ˆ˜์‹ : ฯ€(aโˆฃs)=P(At=aโˆฃSt=s)\pi(a | s) = P(A_t = a | S_t = s)

MDP์˜ ๋ชฉํ‘œ๋Š” ์ด ๋ณด์ƒ์˜ ๊ธฐ๋Œ€๊ฐ’์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ์ตœ์  ์ •์ฑ… ๐œ‹์„ ์ฐพ๋Š” ๊ฒƒ

๊ฐ€์น˜ ํ•จ์ˆ˜(Value Function)

MDP์—์„œ๋Š” ๊ฐ ์ƒํƒœ์™€ ํ–‰๋™์˜ ์žฅ๊ธฐ์ ์ธ ๊ธฐ๋Œ€ ๊ฐ€์น˜๋ฅผ ๊ณ„์‚ฐํ•˜์—ฌ ์ตœ์ ์˜ ์˜์‚ฌ๊ฒฐ์ •์„ ์ˆ˜ํ–‰ํ•˜๋ฉฐ 2๊ฐ€์ง€๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ๋‹ค.
1. ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜ Vฯ€(s)V^\pi(s)

  • ํŠน์ • ์ƒํƒœ ๐‘ ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ •์ฑ… ๐œ‹๋ฅผ ๋”ฐ๋ฅผ ๋•Œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด ๊ธฐ๋Œ€ ๋ณด์ƒ
    Vฯ€(s)=Eฯ€[GtโˆฃSt=s]V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid S_t = s \right]
=Eฯ€[Rt+1+ฮณRt+2+ฮณ2Rt+3+โ‹ฏโˆฃSt=s]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots \mid S_t = s \right]
=Eฯ€[Rt+1+ฮณ(Rt+2+ฮณRt+3+โ€ฆโ€‰)โˆฃSt=s]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \dots) \mid S_t = s \right]
=Eฯ€[Rt+1+ฮณGt+1โˆฃSt=s]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma G_{t+1} \mid S_t = s \right]
=Eฯ€[Rt+1+ฮณVฯ€(St+1)โˆฃSt=s]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma V^\pi(S_{t+1}) \mid S_t = s \right]

2. ํ–‰๋™ ๊ฐ€์น˜ ํ•จ์ˆ˜ Qฯ€(s,a)Q^\pi(s, a)

  • ํŠน์ • ์ƒํƒœ ๐‘ ์—์„œ ํ–‰๋™ ๐‘Ž๋ฅผ ์„ ํƒํ•œ ํ›„ ์ •์ฑ… ๐œ‹๋ฅผ ๋”ฐ๋ฅผ ๋•Œ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด ๊ธฐ๋Œ€ ๋ณด์ƒ.
    Qฯ€(s,a)=Eฯ€[GtโˆฃSt=s,At=a]Q^\pi(s, a) = \mathbb{E}_\pi \left[ G_t \mid S_t = s, A_t = a \right]
=Eฯ€[Rt+1+ฮณRt+2+ฮณ2Rt+3+โ‹ฏโˆฃSt=s,At=a]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots \mid S_t = s, A_t = a \right]
=Eฯ€[Rt+1+ฮณ(Rt+2+ฮณRt+3+โ€ฆโ€‰)โˆฃSt=s,At=a]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma (R_{t+2} + \gamma R_{t+3} + \dots) \mid S_t = s, A_t = a \right]
=Eฯ€[Rt+1+ฮณGt+1โˆฃSt=s,At=a]= \mathbb{E}_\pi \left[ R_{t+1} + \gamma G_{t+1} \mid S_t = s, A_t = a \right]
=Eฯ€[R(s,a)+ฮณVฯ€(St+1)โˆฃSt=s,At=a]= \mathbb{E}_\pi \left[ R(s, a) + \gamma V^\pi(S_{t+1}) \mid S_t = s, A_t = a \right]

Bellman ๋ฐฉ์ •์‹ ํ‘œํ˜„

  1. ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜ Vฯ€(s)V^\pi(s) Bellman ๋ฐฉ์ •์‹ ๊ฐœ๋…์  ์„ค๋ช…
  • ์ƒํƒœ ๐‘ ์—์„œ ์ •์ฑ… ๐œ‹๋ฅผ ๋”ฐ๋ฅผ ๋•Œ, ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ด ๊ธฐ๋Œ€ ๋ณด์ƒ Vฯ€(s)V^\pi(s)๋Š” ์•„๋ž˜์™€ ๊ฐ™์ด ์ •์˜๋œ๋‹ค.
  • ์ฆ‰, ํ˜„์žฌ ์ƒํƒœ์—์„œ ๊ธฐ๋Œ€๋˜๋Š” ๋ณด์ƒ๊ณผ, ๋‹ค์Œ ์ƒํƒœ์—์„œ์˜ ๊ฐ€์น˜(Vฯ€(sโ€ฒ)V^\pi(s'))์˜ ๊ธฐ๋Œ“๊ฐ’์„ ํ• ์ธํ•œ ๊ฐ’์˜ ํ•ฉ์ด๋‹ค.
    Vฯ€(s)=โˆ‘aโˆˆAฯ€(aโˆฃs)โˆ‘sโ€ฒโˆˆSP(sโ€ฒโˆฃs,a)[R(s,a)+ฮณVฯ€(sโ€ฒ)]V^\pi(s) = \sum_{a \in A} \pi(a | s) \sum_{s' \in S} P(s' | s, a) \left[ R(s, a) + \gamma V^\pi(s') \right]
  1. ์ตœ์  ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜ Vฯ€(s)V^\pi(s) Bellman ๋ฐฉ์ •์‹ ๊ฐœ๋…์  ์„ค๋ช…
  • ์ตœ์  ์ •์ฑ… ๐œ‹๋ฅผ ๋”ฐ๋ฅธ๋‹ค๋ฉด, ๊ฐ ์ƒํƒœ ๐‘ ์—์„œ ์ตœ๊ณ ์˜ ํ–‰๋™์„ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค.
  • ์ฆ‰, ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ํ–‰๋™ ์ค‘์—์„œ ๊ธฐ๋Œ€ ๋ณด์ƒ์ด ๊ฐ€์žฅ ํฐ ํ–‰๋™์„ ์„ ํƒํ•ด์•ผ ํ•œ๋‹ค.
    Vโˆ—(s)=maxโกaโˆˆAโˆ‘sโ€ฒโˆˆSP(sโ€ฒโˆฃs,a)[R(s,a)+ฮณVโˆ—(sโ€ฒ)]V^*(s) = \max_{a \in A} \sum_{s' \in S} P(s' | s, a) \left[ R(s, a) + \gamma V^*(s') \right]

์ˆ˜์‹์ ์œผ๋กœ ์ดํ•ดํ•˜๋Š” Bellman ๋ฐฉ์ •์‹ ํ‘œํ˜„

Bellman ๋ฐฉ์ •์‹์€ MDP์˜ ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜ ๐‘‰(๐‘ )๋ฅผ ์žฌ๊ท€์ ์œผ๋กœ ํ‘œํ˜„ํ•œ ์‹์ด๋‹ค.
์ด๋ฅผ ๋‹จ๊ณ„๋ณ„๋กœ ๋ถ„์„ํ•˜๋ฉด:

  1. ํ˜„์žฌ ์ƒํƒœ ๐‘ ์—์„œ ํ–‰๋™ ๐‘Ž๋ฅผ ์„ ํƒํ•˜๊ณ , ์ฆ‰๊ฐ์ ์ธ ๋ณด์ƒ ๐‘…(๐‘ ,๐‘Ž)๋ฅผ ๋ฐ›๋Š”๋‹ค.
  2. ํ™•๋ฅ ์ ์œผ๋กœ ๋‹ค์Œ ์ƒํƒœ ๐‘ โ€ฒ๋กœ ์ „์ด๋˜๋ฉฐ, ์ด ์ƒํƒœ์—์„œ ์žฅ๊ธฐ์ ์ธ ๊ธฐ๋Œ€ ๊ฐ€์น˜
    ๐‘‰(๐‘ โ€ฒ)๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋‹ค.
  3. ํ•˜์ง€๋งŒ ๋ฏธ๋ž˜ ๋ณด์ƒ์˜ ๊ฐ€์น˜๋Š” ํ˜„์žฌ๋ณด๋‹ค ๋‚ฎ๊ฒŒ ํ‰๊ฐ€๋˜๋ฏ€๋กœ, ํ• ์ธ์œจ ๐›พ๋ฅผ ์ ์šฉํ•˜์—ฌ ํ˜„์žฌ ๊ฐ€์น˜์— ๋ฐ˜์˜ํ•œ๋‹ค.

์ด๋ฅผ ์ˆ˜์‹์œผ๋กœ ๋‚˜ํƒ€๋‚ด๋ฉด:

V(s)=R(s)+ฮณV(sโ€ฒ)V(s) = R(s) + \gamma V(s')

ํ•˜์ง€๋งŒ, ๋ชจ๋“  ์ƒํƒœ ์ „์ด๋Š” ํ™•๋ฅ ์ ์ด๋ฏ€๋กœ ์ด๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๊ณ ๋ คํ•˜์—ฌ ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„ํ•  ์ˆ˜ ์žˆ๋‹ค.

V(s)=โˆ‘sโ€ฒโˆˆSP(sโ€ฒโˆฃs,a)[R(s,a)+ฮณV(sโ€ฒ)]V(s) = \sum_{s' \in S} P(s' | s, a) \left[ R(s, a) + \gamma V(s') \right]

๋˜ํ•œ, ์—์ด์ „ํŠธ๋Š” ์ •์ฑ… ๐œ‹์— ๋”ฐ๋ผ ํ–‰๋™ ๐‘Ž๋ฅผ ์„ ํƒํ•˜๋ฏ€๋กœ, ์ด ํ™•๋ฅ ๊นŒ์ง€ ๋ฐ˜์˜ํ•˜๋ฉด:

Vฯ€(s)=โˆ‘aโˆˆAฯ€(aโˆฃs)โˆ‘sโ€ฒโˆˆSP(sโ€ฒโˆฃs,a)[R(s,a)+ฮณVฯ€(sโ€ฒ)]V^\pi(s) = \sum_{a \in A} \pi(a | s) \sum_{s' \in S} P(s' | s, a) \left[ R(s, a) + \gamma V^\pi(s') \right]

๋งˆ์ง€๋ง‰์œผ๋กœ, ์ตœ์  ์ •์ฑ…์„ ๋”ฐ๋ฅธ๋‹ค๋ฉด ์ตœ์  ํ–‰๋™์„ ์„ ํƒํ•˜๋ฏ€๋กœ, ์ตœ์  ์ƒํƒœ ๊ฐ€์น˜ ํ•จ์ˆ˜๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ํ‘œํ˜„๋œ๋‹ค

Vโˆ—(s)=maxโกaโˆˆAโˆ‘sโ€ฒโˆˆSP(sโ€ฒโˆฃs,a)[R(s,a)+ฮณVโˆ—(sโ€ฒ)]V^*(s) = \max_{a \in A} \sum_{s' \in S} P(s' | s, a) \left[ R(s, a) + \gamma V^*(s') \right]

๐ŸŽ“ ์šฉ์–ด ์ •๋ฆฌ

  • ์ƒํƒœ ์ „์ด ํ™•๋ฅ  (P(๐‘ ,๐‘ '))
    ํ˜„์žฌ ์ƒํƒœ ๐‘ ์—์„œ ๋‹ค์Œ์ƒํƒœ ๐‘ '๋กœ ์ „์ด๋  ํ™•๋ฅ .

  • ํ• ์ธ์œจ (๐›พ)
    ๋ฏธ๋ž˜ ๋ณด์ƒ์„ ํ˜„์žฌ ๊ฐ€์น˜๋กœ ํ‰๊ฐ€ํ•˜๋Š” ๊ณ„์ˆ˜. โ†’ ๋ฏธ๋ž˜ ๋ณด์ƒ์˜ ํ˜„์žฌ ๊ฐ€์น˜๋ฅผ ์กฐ์ •ํ•˜๋Š” ์—ญํ• 

  • ์ •์ฑ…(๐œ‹)
    ์ •์ฑ…์€ ์—์ด์ „ํŠธ๊ฐ€ ํŠน์ • ์ƒํƒœ์—์„œ ์–ด๋–ค ํ–‰๋™์„ ์„ ํƒํ• ์ง€๋ฅผ ๊ฒฐ์ •ํ•˜๋Š” ์ „๋žต

  • Return(GtG_t)
    ํŠน์ • ์‹œ์  ๐‘ก์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ๋ฏธ๋ž˜์— ๋ฐ›์„ ๋ˆ„์  ๋ณด์ƒ์„ ์˜๋ฏธ

  • Episode(t)
    ๊ฐ•ํ™”ํ•™์Šต์—์„œ ํ•˜๋‚˜์˜ ๊ณผ์ •์ด ์‹œ์ž‘๋˜๊ณ  ์ข…๋ฃŒ๋˜๋Š” ์ผ๋ จ์˜ ์ƒํƒœ(State) ๋ฐ ํ–‰๋™(Action) ์‹œํ€€์Šค๋ฅผ ์˜๋ฏธ โ†’ ์‹œ์ž‘ ์ƒํƒœ์—์„œ ์‹œ์ž‘ํ•˜์—ฌ ์ข…๋ฃŒ ์ƒํƒœ(Terminal State)์— ๋„๋‹ฌํ•  ๋•Œ๊นŒ์ง€์˜ ๊ณผ์ •

๐ŸŽ“ ํ–ฅํ›„ ์—ฐ๊ตฌ ๊ณ„ํš

  1. Q-learning๊ณผ Deep Q-Network(DQN)
    Q-learning ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์›๋ฆฌ ์ดํ•ด DQN์˜ ๊ตฌ์กฐ์™€ ์ฃผ์š” ๊ตฌ์„ฑ ์š”์†Œ (Replay Buffer, Target Network ๋“ฑ)์— ๋Œ€ํ•œ ํƒ๊ตฌ

์ฐธ๊ณ  : https://canvas4sh.tistory.com/296

0๊ฐœ์˜ ๋Œ“๊ธ€