๐Ÿถ Playing Atari with Deep Reinforcement Learning

ukkikkiaiยท2024๋…„ 5์›” 20์ผ

Euron ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ

๋ชฉ๋ก ๋ณด๊ธฐ
9/13

๐Ÿต Euron

๐ŸŒฑ Value Based vs Policy Based

  • value: ๋ณด์ƒ์„ ๋”ฐ๋ผ์„œ ํ•™์Šต
  • policy: ์ •์ฑ…(ํ–‰๋™)์— ์ดˆ์ ์„ ๋งž์ถฐ์„œ ํ•™์Šต

๐ŸŒฑ Q-๋Ÿฌ๋‹

๐Ÿ’ก ์—์ด์ „ํŠธ๋ฅผ ํ-ํ…Œ์ด๋ธ”๋กœ ํ‘œํ˜„ํ•˜์—ฌ ๊ณ„์† ์—…๋ฐ์ดํŠธ

1) ๋ชจ๋‘ 0์œผ๋กœ ์ดˆ๊ธฐํ™”
2) ์ž„์˜๋กœ ์„ ํƒํ•œ ํ–‰๋™์— ๋”ฐ๋ผ ์ตœ์  ๊ฒฝ๋กœ ํƒ์ƒ‰ โžก๏ธ ํƒ์š• ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‚ฌ์šฉ
3) ๊ฐ€์žฅ ๋†’์€ ํ ๊ฐ’์„ ๊ฐ–๋Š” ํ–‰๋™์„ ์„ ํƒ

๐ŸŒฑ Q-ํ•จ์ˆ˜

  • ์—์ด์ „ํŠธ๊ฐ€ ํ–‰๋™์„ ์ทจํ–ˆ์„ ๊ฒฝ์šฐ ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š” ๋ณด์ƒ์˜ ๊ธฐ๋Œ“๊ฐ’์„ ์˜ˆ์ธกํ•˜๋Š” ํ•จ์ˆ˜
  • ์‹œ๊ฐ„์ด ์ง€๋‚ ์ˆ˜๋ก ๋ณด์ƒ์˜ ๊ฐ€์น˜๊ฐ€ ๊ฐ์†Œ โžก๏ธ ํ• ์ธ๋ฅ  ์ ์šฉ

๐Ÿ“Œ ํ• ์ธ๋ฅ : ๋ฏธ๋ž˜์˜ ๋ˆ์€ ํ˜„์žฌ์˜ ๋ˆ๋ณด๋‹ค ๊ฐ€์น˜๊ฐ€ ๋‚ฎ์•„ ํ• ์ธ๋ฅ ์„ ์ ์šฉ โžก๏ธ ํ˜„์žฌ๋Š” ํ•ด๋‹น ๋ˆ์„ ๊ฐ€์ง€๊ณ  ํˆฌ์ž ๊ฐ€๋Šฅ, ๋ฏธ๋ž˜๋Š” ๋ถˆ๊ฐ€๋Šฅํ•˜๋ฏ€๋กœ ๊ฐ€์น˜๊ฐ€ ๋‚ฎ๋‹ค.

# Why Deep?


Abstract

โฐ 19 Dec 2013

๋ณธ ์—ฐ๊ตฌ๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ชจ๋ธ์„ ํ†ตํ•˜์—ฌ ๊ณ ์ฐจ์›์ ์ธ ๊ฐ๊ฐ ์ž…๋ ฅ์œผ๋กœ๋ถ€ํ„ฐ ์ œ์–ด ๊ทœ์น™์„ ํ•™์Šตํ•˜๋Š”๋ฐ ์„ฑ๊ณตํ•˜์˜€์Œ. ํ•ด๋‹น ๋ชจ๋ธ์€ Q-๋Ÿฌ๋‹์„ ๋ณ€ํ˜• + CNN์„ ์‚ฌ์šฉํ•˜์—ฌ ์ž…๋ ฅ์œผ๋กœ๋Š” raw pixel์„, ์ถœ๋ ฅ์œผ๋กœ๋Š” ๋ฏธ๋ž˜ ๋ณด์ƒ์„ ์˜ˆ์ธกํ•˜๋Š” value function์„ ์‚ฌ์šฉํ•จ. ํ•ด๋‹น ๋ชจ๋ธ์„ ์•„ํ‚คํ…์ฒ˜๋‚˜ ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์กฐ์ •ํ•˜์ง€ ์•Š์€์ฑ„๋กœ Atari 2600์ด๋ผ๋Š” ๊ฒŒ์ž„์— ์ ์šฉ์„ ํ•˜์˜€๊ณ  ๊ฒฐ๋ก ์ ์œผ๋กœ๋Š” ์ด์ „์˜ ์ ‘๊ทผ ๋ฐฉ์‹๊ณผ ์ „๋ฌธ๊ฐ€๋ฅผ ๋Šฅ๊ฐ€ํ•˜๋Š” ์„ฑ๊ณผ๋ฅผ ๋ณด์˜€์Œ.

1. Introduction

๋”ฅ๋Ÿฌ๋‹์˜ ๋ฐœ์ „์œผ๋กœ raw ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ์—์„œ ๊ณ ์ˆ˜์ค€์˜ ํŠน์ง•์„ ์ถ”์ถœํ•  ์ˆ˜ ์žˆ๊ฒŒ ๋˜์–ด ๋น„์ „๊ณผ ์Œ์„ฑ ๋ถ„์•ผ์—์„œ ํš๊ธฐ์ ์ธ ์„ฑ๊ณผ๋ฅผ ์ด๋ฃจ์–ด๋ƒ„. ์ด๋Ÿฌํ•œ ๋ฐฉ๋ฒ•๋“ค์€ CNN, RNN ๋“ฑ ๋‹ค์–‘ํ•œ ์‹ ๊ฒฝ๋ง ๊ตฌ์กฐ์™€ ์ง€๋„/๋น„์ง€๋„ ํ•™์Šต์„ ํ™œ์šฉํ•ด์˜ด. ์ด๋Ÿฌํ•œ ๊ธฐ์ˆ ๋“ค์ด ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜๋Š” RL์—๋„ ์œ ์šฉํ•œ์ง€ ์˜๋ฌธ์ด ์ƒ๊ฒผ์Œ.

๊ฐ•ํ™” ํ•™์Šต์€ ๋”ฅ๋Ÿฌ๋‹ ๊ด€์ ์—์„œ ๋‹ค์–‘ํ•œ ์–ด๋ ค์›€์ด ์žˆ์Œ.

๐Ÿšจ(1) RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ฐ์ดํ„ฐ์…‹
๋Œ€๋ถ€๋ถ„์˜ ์„ฑ๊ณต์ ์ธ ๋”ฅ๋Ÿฌ๋‹ ์‘์šฉ์€ ๋Œ€๋Ÿ‰์˜ ์ˆ˜์ž‘์—…์œผ๋กœ ๋ผ๋ฒจ๋ง๋œ ํ•™์Šต ๋ฐ์ดํ„ฐ๋ฅผ ํ•„์š”๋กœํ•จ. ๊ทธ๋Ÿฌ๋‚˜ RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋Œ€๋ถ€๋ถ„ ํฌ๋ฐ•ํ•˜๊ณ  ์žก์Œ์ด ์„ž์—ฌ์žˆ์œผ๋ฉฐ ์ง€์—ฐ๋œ ์Šค์นผ๋ผ ๋ณด์ƒ ์‹ ํ˜ธ๋กœ๋ถ€ํ„ฐ ํ•™์Šตํ•ด์•ผํ•จ.

๐Ÿถ ์ง€์—ฐ๋œ ์Šค์นผ๋ผ ๋ณด์ƒ

  • '์ง€์—ฐ๋œ': ์—์ด์ „ํŠธ๊ฐ€ ์–ด๋– ํ•œ ํ–‰๋™์„ ํ–ˆ์„ ๋•Œ ๊ทธ ํ–‰๋™์˜ ๊ฒฐ๊ณผ๋กœ ์–ป๋Š” ๋ณด์ƒ์ด ์ฆ‰์‹œ ์ฃผ์–ด์ง€๋Š” ๊ฒƒ์ด ์•„๋‹ˆ๋ผ ๋ช‡ ๋ฒˆ์˜ ๋‹ค๋ฅธ ํ–‰๋™์„ ์ˆ˜ํ–‰ํ•œ ํ›„์— ์ฃผ์–ด์ง€๋Š” ๊ฒƒ
  • '์Šค์นผ๋ผ': ๋ณด์ƒ์ด ๋‹จ์ผํ•œ ์ˆซ์ž๋กœ ํ‘œํ˜„๋˜๋Š” ๊ฒƒ
    โžก๏ธ ์ง€์—ฐ๋œ ๋ณด์ƒ์€ ๊ฐ•ํ™” ํ•™์Šต์„ ์–ด๋ ต๊ฒŒ ๋งŒ๋“œ๋Š” ์š”์ธ ์ค‘ ํ•˜๋‚˜์ž„. ์ž…๋ ฅ๊ณผ ๋ชฉํ‘œ ๊ฐ„์˜ ์ง์ ‘์ ์ธ ์—ฐ๊ด€์„ฑ์„ ๊ฐ€์ง€๋Š” ์ง€๋„ ํ•™์Šต์— ๋น„ํ•ด ์–ด๋ ค์›€์ด ์žˆ์Œ.

๐Ÿšจ(2) ๊ณ ๋„๋กœ ์ƒ๊ด€๋œ ์ƒํƒœ๋“ค์˜ Sequence
๋”ฅ๋Ÿฌ๋‹์€ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ ๋Œ€๋ถ€๋ถ„์ด ๋…๋ฆฝ์ ์ž„. ๊ทธ๋Ÿฌ๋‚˜ RL์—์„œ๋Š” ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์ƒˆ๋กœ์šด ํ–‰๋™์„ ํ•™์Šตํ•จ์— ๋”ฐ๋ผ์„œ ๋ฐ์ดํ„ฐ์˜ ๋ถ„ํฌ๊ฐ€ ๋ณ€ํ™”ํ•˜๋Š”๋ฐ, ์ด๋Š” ๊ณ ์ •๋œ ๊ธฐ์ € ๋ถ„ํฌ๋ฅผ ๊ฐ€์ •ํ•˜๋Š” ๋”ฅ๋Ÿฌ๋‹ ๋ฐฉ๋ฒ•๋“ค์— ๋Œ€ํ•ด ๋งž์ง€ ์•Š์„ ์ˆ˜ ์žˆ์Œ.

๋ณธ ๋…ผ๋ฌธ์€ CNN์ด RLํ™˜๊ฒฝ์—์„œ raw ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ๋กœ๋ถ€ํ„ฐ ์„ฑ๊ณต์ ์ธ ์ œ์–ด ๊ทœ์น™์„ ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Œ์„ ๋ณด์—ฌ์คŒ.

  • Q-๋Ÿฌ๋‹ ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋ณ€ํ˜•๊ณผ SGD๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ€์ค‘์น˜๋ฅผ ์—…๋ฐ์ดํŠธํ•˜์—ฌ ํ•™์Šต
  • ๊ฒฝํ—˜ ์žฌ์ƒ ๋งค์ปค๋‹ˆ์ฆ˜: ์ƒ๊ด€๋œ ๋ฐ์ดํ„ฐ์™€ ๋น„์ •์ƒ์  ๋ถ„ํฌ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•˜์—ฌ ์ „ํ™˜ ์ƒํƒœ๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋ง

โœ… ํ•ด๋‹น ์ ‘๊ทผ๋ฒ•์„ Atari 2600 ๊ฒŒ์ž„๋“ค์— ์ ์šฉํ•˜์—ฌ (๋น„๋””์˜ค ์ž…๋ ฅ, ๋ณด์ƒ ๋ฐ ์ข…๋ฃŒ ์‹ ํ˜ธ, ๊ฐ€๋Šฅํ•œ ํ–‰๋™ ์ง‘ํ•ฉ)๋งŒ์œผ๋กœ ํ•™์Šตํ•˜์—ฌ 7๊ฐœ ์ค‘ 6๊ฐœ๊ฐ€ ์ด์ „์˜ ๋ชจ๋“  ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ๋Šฅ๊ฐ€ํ•˜์˜€์œผ๋ฉฐ ๊ทธ ์ค‘ 3๊ฐœ๋Š” ์ „๋ฌธ์ ์ธ ์‚ฌ๋žŒ ์ˆ˜์ค€์„ ๋Šฅ๊ฐ€ํ•จ.

2. Background

๐Ÿถ ๋ณธ ๋…ผ๋ฌธ์€ ์—์ด์ „ํŠธ๊ฐ€ ํ™˜๊ฒฝ E(์ฆ‰ Atari ์—๋ฎฌ๋ ˆ์ดํ„ฐ)์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ํ–‰๋™, ๊ด€์ฐฐ, ๋ณด์ƒ์˜ ๋‹จ๊ณ„๋ฅผ ์ˆ˜ํ–‰ํ•˜๋Š” ์ž‘์—…์„ ๊ณ ๋ คํ•จ.

  • ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์—์„œ ์—์ด์ „ํŠธ๋Š” ๊ฐ€๋Šฅํ•œ ๊ฒŒ์ž„ ํ–‰๋™ ์ง‘ํ•ฉ A={1,...,K}์—์„œ ํ–‰๋™ ๐Ÿ“Œat๋ฅผ ์„ ํƒํ•จ.
  • ํ•ด๋‹น ํ–‰๋™์€ ์• ๋ฎฌ๋ ˆ์ดํ„ฐ์— ์ „๋‹ฌ๋˜์–ด ๋‚ด๋ถ€ ์ƒํƒœ์™€ ๊ฒŒ์ž„ ์ ์ˆ˜์— ์˜ํ–ฅ์„ ๋ฏธ์นจ.
  • ์—์ด์ „ํŠธ๋Š” ์—๋ฎฌ๋ ˆ์ดํ„ฐ์˜ ๋‚ด๋ถ€ ์ƒํƒœ๋ฅผ ๊ด€์ฐฐํ•  ์ˆ˜ ์—†๊ณ , ํ˜„์žฌ ํ™”๋ฉด์„ ๋‚˜ํƒ€๋‚ด๋Š” ์›์‹œ ํ”ฝ์…€ ๊ฐ’์˜ ๋ฒกํ„ฐ์ธ ์ด๋ฏธ์ง€ ๐Ÿ“Œxt๋ฅผ ๊ด€์ฐฐํ•จ.
  • ๊ฒŒ์ž„ ์ ์ˆ˜์˜ ๋ณ€ํ™”๋ฅผ ๋‚˜ํƒ€๋‚ด๋Š” ๋ณด์ƒ ๐Ÿ“Œrt๋ฅผ ๋ฐ›์Œ.

โžก๏ธ ๊ฒŒ์ž„ ์ ์ˆ˜๋Š” ์ด์ „์˜ ๋ชจ๋“  ํ–‰๋™๊ณผ ๊ด€์ฐฐ ์‹œํ€€์Šค์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์ง€๋ฉฐ ํ”ผ๋“œ๋ฐฑ์€ ์ˆ˜์ฒœ ํƒ€์ž„์Šคํ…์ด ๊ฒฝ๊ณผํ•œ ํ›„์—์•ผ ๋ฐ›์„ ์ˆ˜ ์žˆ์Œ.

์—์ด์ „ํŠธ๋Š” ํ˜„์žฌ ํ™”๋ฉด์˜ ์ด๋ฏธ์ง€๋งŒ์„ ๊ด€์ฐฐํ•˜๊ธฐ ๋•Œ๋ฌธ์— ์œ„์˜ ์ž‘์—…์€ ๋ถ€๋ถ„์ ์œผ๋กœ ๊ด€์ฐฐ๋จ โžก๏ธ ํ™”๋ฉด xt๋งŒ์œผ๋กœ๋Š” ํ˜„์žฌ ์ƒํ™ฉ์„ ์™„์ „ํžˆ ์ดํ•ดํ•  ์ˆ˜ ์—†์Œ.

๐Ÿ’ก ๋”ฐ๋ผ์„œ ํ–‰๋™๊ณผ ๊ด€์ฐฐ์˜ ์‹œํ€€์Šค st = x1, a1, x2, ... ๋ฅผ ๊ณ ๋ คํ•˜๋ฉฐ ์ด๋Ÿฌํ•œ ์‹œํ€€์Šค์— ์˜์กดํ•˜๋Š” ๊ฒŒ์ž„ ์ „๋žต์„ ํ•™์Šตํ•จ.

  • ๐Ÿ“Œst: ์‹œ๊ฐ„ t์—์„œ์˜ ์ƒํƒœ ํ‘œํ˜„์œผ๋กœ ํ‘œ์ค€ ๊ฐ•ํ™” ํ•™์Šต ๋ฐฉ๋ฒ•์„ MDP์— ์ ์šฉํ•  ์ˆ˜ ์žˆ์Œ

๐Ÿถ ๋งˆ๋ฅด์ฝ”ํ”„ ๊ฒฐ์ • ๊ณผ์ •(MDP)

  • ์˜์‚ฌ ๊ฒฐ์ •์„ ์ˆ˜ํ•™์ ์œผ๋กœ ๋ชจ๋ธ๋งํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ. ๋ชฉํ‘œ๋Š” ์—์ด์ „ํŠธ๊ฐ€ ์ตœ์ ์˜ ํ–‰๋™ ๊ทœ์น™(์ด ๋ณด์ƒ์„ ๊ทน๋Œ€ํ™”)์„ ์ฐพ๋Š” ๊ฒƒ โžก๏ธ ํ˜„์žฌ ์–ด๋–ค ํ–‰๋™์„ ์„ ํƒํ•ด์•ผ ๋ฏธ๋ž˜ ๋ณด์ƒ์ด ์ตœ๋Œ€ํ™”๋˜๋Š”์ง€ ํ•™์Šต ๊ฐ€๋Šฅํ•จ.

โœ… ์—์ด์ „ํŠธ ๋ชฉํ‘œ: ์—๋ฎฌ๋ ˆ์ดํ„ฐ์™€ ์ƒํ˜ธ์ž‘์šฉํ•˜๋ฉฐ ๋ฏธ๋ž˜ ๋ณด์ƒ์„ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ

  • ๋ฏธ๋ž˜ ๋ณด์ƒ์€ ฮณ๋กœ ํ• ์ธ๋˜๋ฉฐ, ์ „์ฒด ์‹œ๊ฐ„์„ Y๋ผ๊ณ  ํ–ˆ์„ ๋•Œ Rt

  • ์ตœ์  ํ–‰๋™-๊ฐ€์น˜ ํ•จ์ˆ˜ Q*(s,a)๋Š” ์–ด๋– ํ•œ ํ–‰๋™ a๋ฅผ ํ–ˆ์„ ๋•Œ ๋ฐ›๋Š” ๊ฐ€์žฅ ํฐ ๋ณด์ƒ ๊ฐ’

  • Bellman ๋ฐฉ์ •์‹: ์ตœ์กฑ ํ–‰๋™-๊ฐ€์น˜ ํ•จ์ˆ˜๊ฐ€ ๋”ฐ๋ฅด๋Š” ํ•ญ๋“ฑ์‹ โžก๏ธ ์‹œํ€€์Šค s'์˜ ์ตœ์  ๊ฐ€์น˜ Q(s', a')์ด ๋ชจ๋“  ๊ฐ€๋Šฅํ•œ ํ–‰๋™ a'์— ๋Œ€ํ•˜์—ฌ ์•Œ๋ ค์ ธ์žˆ๋‹ค๋ฉด ์ตœ์  ์ „๋žต์€ r + rQ(s', a')๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ํ–‰๋™์„ ์„ ํƒํ•˜๋Š” ๊ฒƒ์ด๋ผ๋Š” ์ง๊ด€

๐Ÿšจ ๊ฐ€์น˜ ๋ฐ˜๋ณต ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ตœ์  ํ–‰๋™ ๊ฐ€์น˜ Q* ์— ์ˆ˜๋ ดํ•˜๋‚˜, ์‹œํ€€์Šค์— ๋Œ€ํ•œ ํ–‰๋™ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ๋ณ„๋„๋กœ ์ถ”์ •ํ•˜๋ฏ€๋กœ ๋น„ํ˜„์‹ค์ ์ž„

  • ํ•จ์ˆ˜ ๊ทผ์‚ฌ์น˜๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ Q(s,a;ฮธ)๋ฅผ Q*(s,a)๋กœ ์ถ”์ •ํ•˜๋Š” ๊ฒƒ์ด ์ผ๋ฐ˜์ 
    ๐Ÿ’ก ์„ ํ˜• ํ•จ์ˆ˜ ๊ทผ์‚ฌ์น˜๋ฅผ ์‚ฌ์šฉํ•  ์ˆ˜๋„ ์žˆ์ง€๋งŒ nn๊ณผ ๊ฐ™์€ ๋น„์„ ํ˜• ํ•จ์ˆ˜ ๊ทผ์‚ฌ์น˜๋ฅผ ์‚ฌ์šฉ โžก๏ธ Q-๋„คํŠธ์›Œํฌ

๐Ÿถ ํ˜„์žฌ ์ƒํƒœ์—์„œ์˜ ํ–‰๋™ ๊ฐ€์น˜๋ฅผ ๋‹ค์Œ ์ƒํƒœ์—์„œ์˜ ์ตœ์  ํ–‰๋™ ๊ฐ€์น˜๋กœ ๊ฐฑ์‹ ํ•˜๋Š” ๊ฒƒ(Q๋Š” ํ˜„์žฌ ์ƒํƒœ์˜ ๊ฐ€์น˜ ํ‰๊ฐ€ Q'์€ ๋‹ค์Œ ์ƒํƒœ์—์„œ์˜ ๊ฐ€์น˜ ํ‰๊ฐ€)

์œ„์˜ ์†์‹คํ•จ์ˆ˜๋Š” SGD๋กœ ๋” ํšจ์œจ์ ์œผ๋กœ ๊ณ„์‚ฐ โžก๏ธ ์—ํ”ผ์†Œ๋“œ๋งˆ๋‹ค ๊ฐ€์ค‘์น˜๋ฅผ ๊ฐฑ์‹ ํ•˜๊ณ , ๊ธฐ๋Œ“๊ฐ’์„ ํ–‰๋™ ๋ถ„ํฌ ฯ์™€ ์—๋ฎฌ๋ ˆ์ดํ„ฐ ๐ธ์—์„œ ๋‹จ์ผ ์ƒ˜ํ”Œ๋กœ ๋Œ€์ฒดํ•จ.

โœ… ํ•ด๋‹น ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ๋ชจ๋ธ ํ”„๋ฆฌ์ด๋ฉฐ, ์—๋ฎฌ๋ ˆ์ดํ„ฐ E์˜ ์ถ”์ •์„ ๋ช…์‹œ์ ์œผ๋กœ ๊ตฌ์„ฑํ•˜์ง€ ์•Š๊ณ ์„œ ์ƒ˜ํ”Œ์„ ์ง์ ‘ ์‚ฌ์šฉํ•˜์—ฌ RL ์ž‘์—…์„ ํ•ด๊ฒฐํ•จ. ์ƒํƒœ ๊ณต๊ฐ„์˜ ์ถฉ๋ถ„ํ•œ ํƒ์ƒ‰์„ ๋ณด์žฅํ•˜๋Š” ํ–‰๋™ ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๋ฉด์„œ๋„ Greedy ์ „๋žต์— ๋Œ€ํ•ด ํ•™์Šตํ•จ.

+) ์‹ค์ œ๋กœ๋Š” 'ฯต-Greedy ์ „๋žต'์ด ์‚ฌ์šฉ: ํ™•๋ฅ  1โˆ’ฯต๋กœ Greedy ์ „๋žต์„ ๋”ฐ๋ฅด๊ณ , ํ™•๋ฅ  ฯต๋กœ ๋ฌด์ž‘์œ„ ํ–‰๋™์„ ์„ ํƒํ•ฉ๋‹ˆ๋‹ค.

๐Ÿถ ๋ชจ๋ธ ํ”„๋ฆฌ

  • ํ™˜๊ฒฝ์˜ ๋ช…์‹œ์  ๋ชจ๋ธ์„ ๊ตฌ์ถ•ํ•˜์ง€ ์•Š๊ณ  ์ง์ ‘ ๊ฒฝํ—˜์„ ํ†ตํ•ด ํ•™์Šตํ•˜๋Š” ๋ฐฉ์‹

(1) TD-gammon์— MLP๋ฅผ ํ™œ์šฉํ•˜์—ฌ model-free RL์„ ํ™œ์šฉํ•œ ์—ฐ๊ตฌ๊ฐ€ ์žˆ์—ˆ์œผ๋‹ˆใ…, ์ฒด์Šค/๋ฐ”๋‘‘/์ฒด์ปค์™€ ๊ฐ™์€ ๊ฒŒ์ž„์—์„œ๋Š” ์„ฑ๊ณต์ ์ด์ง€ ๋ชปํ–ˆ์Œ.

๐Ÿšจ ํ•ด๋‹น ๋ฐฉ๋ฒ•์€ TD-gammon์—๋งŒ ์ ์šฉ์ด ๋˜๋Š” ํŠน์ˆ˜ ์ผ€์ด์Šค => ์ฃผ์‚ฌ์œ„์˜ ํ™•๋ฅ  ๋ถ„ํฌ๊ฐ€ ๊ฐ€์น˜ ํ•จ์ˆ˜๋ฅผ ๋” ๋ถ€๋“œ๋Ÿฝ๊ฒŒ ๋งŒ๋“ค์–ด์ฃผ์—ˆ์„ ๊ฒƒ

(2) ์ œํ•œ ๋ณผ์ธ ๋งŒ ๋จธ์‹ : ๊ฐ€์น˜ ํ•จ์ˆ˜ ์ถ”์ •์— ์‚ฌ์šฉ, Q-๋Ÿฌ๋‹ ๋ณ€ํ˜•์œผ๋กœ ์ œ์–ด ๊ทœ์น™์„ ํ•™์Šตํ•  ๋•Œ ์ˆ˜๋ ดํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์ž…์ฆ

๐Ÿšจ ๋น„์„ ํ˜• ์ œ์–ด๋กœ ํ™•์žฅ๋˜์ง€ ์•Š์Œ

(3) NFQ: ์†์‹ค ํ•จ์ˆ˜์˜ ์‹œํ€€์Šค ์ตœ์ ํ™”๋ฅผ ์œ„ํ•ด RPROP ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์‚ฌ์šฉ, Q-๋„คํŠธ์›Œํฌ ํŒŒ๋ผ๋ฏธํ„ฐ ์—…๋ฐ์ดํŠธ + ๋ฐ์ดํ„ฐ์…‹ ํฌ๊ธฐ์— ๋น„๋ก€ํ•˜๋Š” ๊ณ„์‚ฐ ๋น„์šฉ์„ ๊ฐ€์ง„ batch ์—…๋ฐ์ดํŠธ ์‚ฌ์šฉ + ๋‹จ์ˆœํ•œ ํ˜„์‹ค ์„ธ๊ณ„์˜ ์ œ์–ด ์ž‘์—…์—๋งŒ ์„ฑ๊ณต์ 

โœ… ๋ณธ ์—ฐ๊ตฌ๋Š” ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ํ™•์žฅํ•  ์ˆ˜ ์žˆ๋Š” SGD๋ฅผ ์‚ฌ์šฉ + ์‹œ๊ฐ์  ์ž…๋ ฅ์—์„œ RL์„ ์ ์šฉํ•˜์—ฌ ํ–‰๋™ ๊ฐ€์น˜๋ฅผ ๊ตฌ๋ณ„ํ•˜๋Š”๋ฐ ์ง์ ‘์ ์œผ๋กœ ๊ด€๋ จ๋œ ํŠน์„ฑ๋“ค์„ ํ•™์Šต

4. Deep Reinforcement Learning

๐Ÿถ ๋ชฉํ‘œ: RL ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ง์ ‘ RGB ์ด๋ฏธ์ง€์—์„œ ์ž‘๋™ํ•˜๋Š” ์‹ฌ์ธต ์‹ ๊ฒฝ๋ง๊ณผ ์—ฐ๊ฒฐํ•˜๊ณ , SGD ์—…๋ฐ์ดํŠธ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ›ˆ๋ จ ๋ฐ์ดํ„ฐ๋ฅผ ํšจ์œจ์ ์œผ๋กœ ์ฒ˜๋ฆฌํ•˜๋Š” ๊ฒƒ!

โžก๏ธ TD-Gammon๊ณผ ๋‹ฌ๋ฆฌ 'experience replay' ๊ธฐ์ˆ  ์‚ฌ์šฉ

  • ๊ฐ ์‹œ๊ฐ„ ๋‹จ๊ณ„์˜ ์—์ด์ „ํŠธ์˜ ๊ฒฝํ—˜์„ ๋ฐ์ดํ„ฐ์…‹ D = e1, ... eN -> ๋งŽ์€ ์—ํ”ผ์†Œ๋“œ๋ฅผ ๋ฉ”๋ชจ๋ฆฌ์— ์ €์žฅ
  • ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ๋‚ด๋ถ€ ๋ฃจํ”„์—์„œ ๊ฒฝํ—˜์˜ ์ƒ˜ํ”Œ์ธ e~D๋ฅผ ๋ฌด์ž‘์œ„๋กœ ์ถ”์ถœํ•˜์—ฌ Q-๋Ÿฌ๋‹ ์—…๋ฐ์ดํŠธ/๋ฏธ๋‹ˆ๋ฐฐ์น˜ ์—…๋ฐ์ดํŠธ ์ ์šฉ
  • ER๋ฅผ ์ ์šฉํ•œ ํ›„, ์—์ด์ „ํŠธ๋Š” Greedy์— ๋”ฐ๋ผ ํ–‰๋™์„ ์„ ํƒํ•˜๊ณ  ์‹คํ–‰ํ•จ.

+) ์ž„์˜์˜ ์ด๋ ฅ ๊ธธ์ด๋ฅผ nn์— ๋„ฃ๋Š” ๊ฒƒ์€ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Œ => Qํ•จ์ˆ˜ ๋Œ€์‹  ํ•จ์ˆ˜ ฯ†์— ์˜ํ•ด ์ƒ์„ฑ๋œ ์ด๋ ฅ์˜ ๊ณ ์ •๋œ ๊ธธ์ด ํ‘œํ˜„ ์‚ฌ์šฉ

๐Ÿถ ์—ฐ์†๋œ ์ƒ˜ํ”Œ์—์„œ ์ง์ ‘ ํ•™์Šตํ•˜๋Š” ๊ฒƒ์€ ์ƒ˜ํ”Œ์˜ ๊ฐ•ํ•œ ์ƒ๊ด€ ๊ด€๊ณ„ ๋•Œ๋ฌธ์— ๋น„ํšจ์œจ์  => ๋ฌด์ž‘์œ„ ์„ ํƒํ•˜์—ฌ ์ƒ๊ด€ ๊ด€๊ณ„๋ฅผ ๊นจ๊ณ  ์—…๋ฐ์ดํŠธ์˜ ๋ถ„์‚ฐ์„ ์ค„์ž„

๐Ÿถ On-policy: ํ˜„์žฌ์˜ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ํ›ˆ๋ จ๋˜๋Š” ๋‹ค์Œ ๋ฐ์ดํ„ฐ ์ƒ˜ํ”Œ์„ ๊ฒฐ์ •

  • ์ตœ๋Œ€ํ™” ํ–‰๋™์ด ์™ผ์ชฝ์œผ๋กœ ์ด๋™ํ•œ๋‹ค๋ฉด ํ›ˆ๋ จ ์ƒ˜ํ”Œ์€ ์™ผ์ชฝ์—์„œ ์„ ํƒ๋œ ์ƒ˜ํ”Œ์ผ ํ™•๋ฅ ์ด ๋†’์Œ => ํ›ˆ๋ จ ๋ถ„ํฌ๊ฐ€ ๋ณ€๊ฒฝ๋˜๋Š” ๊ฒƒ

๐Ÿšจ ์›์น˜ ์•Š๋Š” ํ”ผ๋“œ๋ฐฑ ๋ฃจํ”„๋กœ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์ง€์—ญ ์ตœ์†Ÿ๊ฐ’์— ๊ฐ‡ํžˆ๊ฑฐ๋‚˜ ๋ฐœ์‚ฐํ•  ์ˆ˜ ์žˆ์Œ

โžก๏ธ Experience Replay๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ–‰๋™ ๋ถ„ํฌ๊ฐ€ ๋งŽ์€ ์ด์ „ ์ƒํƒœ์— ์˜ํ•ด ํ‰๊ท ํ™”๋˜์–ด ํ•™์Šต์ด ๋ถ€๋“œ๋Ÿฝ๊ณ  ๋งค๊ฐœ ๋ณ€์ˆ˜์˜ ์ง„๋™/๋ฐœ์‚ฐ ๋ฐฉ์ง€

+) ER๋กœ ํ•™์Šตํ•  ๋•Œ ํ˜„์žฌ ๋งค๊ฐœ๋ณ€์ˆ˜๊ฐ€ ์ƒ˜ํ”Œ์„ ์ƒ์„ฑํ•˜๋Š”๋ฐ ์‚ฌ์šฉ๋œ ๋งค๊ฐœ๋ณ€์ˆ˜์™€ ๋‹ค๋ฅด๊ธฐ ๋•Œ๋ฌธ์— Off-policy ํ•™์Šต์ด ํ•„์š”ํ•˜๋ฉฐ ์ด๊ฒƒ์ด Q-๋Ÿฌ๋‹์„ ์„ ํƒํ•˜๋Š” ๋™๊ธฐ๊ฐ€ ๋จ

๐Ÿ“Œ On/Off - policy

  • ์˜จ ํด๋ฆฌ์‹œ: ํ˜„์žฌ ์‚ฌ์šฉ๋˜๊ณ  ์žˆ๋Š” ์ •์ฑ…์— ๋”ฐ๋ผ ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•˜๊ณ  ํ‰๊ฐ€ํ•จ. ex. SARSA
  • ์˜คํ”„ ํด๋ฆฌ์‹œ: ๋‹ค๋ฅธ ์ •์ฑ…์œผ๋กœ ์ˆ˜์ง‘๋œ ๋ฐ์ดํ„ฐ๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ํ‰๊ฐ€ํ•˜๊ณ  ํ•™์Šตํ•จ. ex. Q-๋Ÿฌ๋‹

โœ… Q-๋Ÿฌ๋‹์€ ์—์ด์ „ํŠธ๊ฐ€ ํ˜„์žฌ ์ •์ฑ…๊ณผ๋Š” ๊ด€๊ณ„์—†๋Š” ํ–‰๋™์„ ์„ ํƒํ•˜๊ณ , ๊ทธ ๊ฒฐ๊ณผ๋กœ ๋ฐ›์€ ๋ณด์ƒ์„ ์‚ฌ์šฉํ•˜์—ฌ ์ตœ์ ์˜ ์ •์ฑ…์„ ์ฐพ๊ฒŒ ๋จ.

4.1 Preprocessing and Model Architecture

๐Ÿšจ Atari ๊ฒŒ์ž„์˜ raw ํ”„๋ ˆ์ž„์„ ์ง์ ‘ ๋‹ค๋ฃจ๋Š” ๊ฒƒ์€ ๊ณ„์‚ฐ์  ์š”๊ตฌ๊ฐ€ ๋†’์Œ

โžก๏ธ (1) ์ž…๋ ฅ ์ฐจ์›์„ ์ค„์ด๊ธฐ ์œ„ํ•œ ๊ธฐ๋ณธ ์ „์ฒ˜๋ฆฌ ๋‹จ๊ณ„ ์ ์šฉ

  • RGB ํ‘œํ˜„์„ ๊ทธ๋ ˆ์ด์Šค์ผ€์ผ๋กœ ๋ณ€ํ™˜, 110 x 84๋กœ ๋‹ค์šด ์ƒ˜ํ”Œ๋ง
  • ํ”Œ๋ ˆ์ด ์˜์—ญ์„ ๋Œ€๋žต์ ์œผ๋กœ ์บก์ฒ˜ํ•œ 84 x 84 ์˜์—ญ

(2) ์‹ ๊ฒฝ๋ง์„ ์‚ฌ์šฉํ•˜์—ฌ Q๋ฅผ ๋งค๊ฐœ๋ณ€์ˆ˜ํ™”: ์ƒํƒœ ํ‘œํ˜„๋งŒ์ด ์‹ ๊ฒฝ๋ง์˜ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉ๋˜๋Š” ์•„ํ‚คํ…์ฒ˜

  • ์ถœ๋ ฅ์€ ์ž…๋ ฅ ์ƒํƒœ์— ๋Œ€ํ•œ ๊ฐœ๋ณ„ ํ–‰๋™์˜ ์˜ˆ์ธก๋œ Q๊ฐ’
    โžก๏ธ ์žฅ์ : ๋‹จ์ผ ์ „๋ฐฉ ์ „๋‹ฌ๋กœ ์ฃผ์–ด์ง„ ์ƒํƒœ์—์„œ ๊ฐ€๋Šฅํ•œ ๋ชจ๋“  ํ–‰๋™์˜ Q๊ฐ’ ๊ณ„์‚ฐ

๐Ÿ’ก ์•„ํ‚คํ…์ฒ˜ Deep Q-Network(DQN)
(0) ์‹ ๊ฒฝ๋ง์˜ ์ž…๋ ฅ: ฯ†์— ์˜ํ•ด ์ƒ์„ฑ๋œ 84 ร— 84 ร— 4 ์ด๋ฏธ์ง€
(1) ์€๋‹‰์ธต 1: 16๊ฐœ์˜ 8 x 8 ํ•„ํ„ฐ๋ฅผ 4 strideํ•˜๋Š” CNN => Relu
(2) ์€๋‹‰์ธต 2: 32๊ฐœ์˜ 4 x 4 ํ•„ํ„ฐ๋ฅผ 2 strideํ•˜๋Š” CNN => Relu
(3) ์€๋‹‰์ธต 3: FC, 256 Relu Unit
(4) ์ถœ๋ ฅ: ๊ฐ ์œ ํšจ ํ–‰๋™์— ๋Œ€ํ•œ ๋‹จ์ผ ์ถœ๋ ฅ(ํ–‰๋™์€ ๊ฒŒ์ž„๋งˆ๋‹ค 4-18

5. Experiments

RMSProp, Greedy ํ–‰๋™ ์ •์ฑ…, ํ”„๋ ˆ์ž„ ๊ฑด๋„ˆ๋›ฐ๊ธฐ ๊ธฐ์ˆ  ์‚ฌ์šฉ โžก๏ธ Atari ๊ฒŒ์ž„ 7๊ฐœ์— ๋Œ€ํ•œ ์‹คํ—˜์—์„œ ๊ฒฌ๊ณ ํ•จ์„ ๋ณด์ž„.

5.1 Training and Stability

ํ›ˆ๋ จ ์‹œ์ž‘ ์ „ ๋žœ๋ค ์ •์ฑ… ์‹คํ–‰ํ•˜์—ฌ ๊ณ ์ •๋œ ์ƒํƒœ ์ง‘ํ•ฉ์„ ์ˆ˜์ง‘ํ•˜๊ณ  ์ด์— ๋Œ€ํ•œ ์ตœ๋Œ€ ์˜ˆ์ธก Q๊ฐ’์˜ ํ‰๊ท ์„ ์ถ”์  โžก๏ธ ์˜ˆ์ธก๋œ Q๊ฐ’์ด ์›ํ™œํ•˜๊ฒŒ ์ฆ๊ฐ€ + ๋ฐœ์‚ฐ ๋ฌธ์ œX

  • ์ด๋ก ์  ์ˆ˜๋ ด ๋ณด์žฅ์ด ์—†์ง€๋งŒ ๊ฐ•ํ™” ํ•™์Šต ์‹ ํ˜ธ์™€ SGD๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ๋Œ€๊ทœ๋ชจ ์‹ ๊ฒฝ๋ง์„ ์•ˆ์ •์ ์œผ๋กœ ํ›ˆ๋ จ

  • ์™ผ์ชฝ 2๊ฐœ๋Š” ฯต-greedy policy ์‚ฌ์šฉ, ์˜ค๋ฅธ์ชฝ 2๊ฐœ๋Š” ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ Average Q ์‚ฌ์šฉ
    โœ… ํ™•์‹คํ•˜๊ฒŒ ์•ˆ์ •์ ์œผ๋กœ ํ›ˆ๋ จ๋จ์„ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Œ

5.2 Visualizing the Value Function

  • ์œ„ ๊ทธ๋ฆผ์€ ๊ฒŒ์ž„์—์„œ ํ•™์Šต๋œ ๊ฐ€์น˜ ํ•จ์ˆ˜์˜ ์‹œ๊ฐํ™”์ž„. ์˜ˆ์ธก๋œ ๊ฐ’์ด ํ™”๋ฉด ์™ผ์ชฝ์— ์ ์ด ๋‚˜ํƒ€๋‚˜๋ฉด ๊ธ‰๊ฒฉํ•˜๊ฒŒ ์ฆ๊ฐ€ํ•จ. ์—์ด์ „ํŠธ๊ฐ€ ์ ์—๊ฒŒ ์–ด๋ขฐ๋ฅผ ๋ฐœ์‚ฌํ•˜๊ณ  ์–ด๋ขฐ๊ฐ€ ์ ์—๊ฒŒ ๋ช…์ค‘ํ•˜๊ธฐ ์ง์ ‘์— ์˜ˆ์ธก๋œ ๊ฐ’์ด ์ตœ๊ณ ์ ์— ์ด๋ฅด๊ฒŒ ๋จ. ์ ์ด ์‚ฌ๋ผ์ง„ ํ›„์—๋Š” ๊ฐ’์ด ์›๋ž˜ ๊ฐ’์œผ๋กœ ๋–จ์–ด์ง.

โœ… ๋ณธ ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•œ ๋ฐฉ๋ฒ•์ด ์ƒ๋‹นํžˆ ๋ณต์žกํ•œ ์‚ฌ๊ฑด์˜ ์ผ๋ จ์— ๋Œ€ํ•œ ๊ฐ€์น˜ ํ•จ์ˆ˜์˜ ๋ณ€ํ™”๋ฅผ ํ•™์Šตํ–ˆ์Œ์„ ๋ณด์—ฌ์คŒ.

5.3 Main Evaluation

  • DQN: ๊ฐ ๊ฒŒ์ž„์— ๋Œ€ํ•˜์—ฌ Random, Sarsa, Contingency๋ณด๋‹ค ๋†’์€ ์„ฑ๋Šฅ์„ ๋ณด์ž„

โœ… ๋ณธ ๋…ผ๋ฌธ์—์„œ์˜ ๋ฐฉ๋ฒ•์€ Atari ๊ฒŒ์ž„์—์„œ ๋‹ค๋ฅธ ๋ฐฉ๋ฒ•๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๋ณด์ด๋ฉฐ, ์‚ฌ์ „ ์ง€์‹ ์—†์ด๋„ raw RGB ์Šคํฌ๋ฆฐ์ƒท์„ ์‚ฌ์šฉํ•˜์—ฌ ๊ฐ์ฒด๋ฅผ ๊ฐ์ง€ํ•˜์—ฌ ์ผ๋ฐ˜ํ™”๋˜์–ด ์žˆ์Œ.

6. Conclusion

๋ณธ ์—ฐ๊ตฌ๋Š” DQN ๊ตฌ์กฐ๋ฅผ ํ™œ์šฉํ•˜์—ฌ ๋”ฅ๋Ÿฌ๋‹์„ RL์— ์ ์šฉ์‹œ์ผœ, raw pixel๋งŒ์„ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜์—ฌ SOTA ๊ฒฐ๊ณผ๋ฅผ ๋ณด์ž„.

๐Ÿต ๊ฐ•ํ™”ํ•™์Šต์— ๋Œ€ํ•ด์„œ๋Š” ๊ด€์‹ฌ๋งŒ ์žˆ์—ˆ์ง€ ์ž˜ ๋ชฐ๋ž๋Š”๋ฐ, ์ด๋ ‡๊ฒŒ ์Œฉ์œผ๋กœ ๊ฒŒ์ž„ ํ™”๋ฉด์„ ์ž…๋ ฅ๊ฐ’์œผ๋กœํ•˜์—ฌ ํ•™์Šต์ด ๊ฐ€๋Šฅํ•˜๋‹ค๋Š” ๊ฒƒ์€ ์ฒ˜์Œ ์•Œ์•˜๋‹ค. ๋ณธ ๋…ผ๋ฌธ์€ 13๋…„๋„ ๋…ผ๋ฌธ์ธ๋ฐ 17๋…„๋„ ์•ŒํŒŒ๊ณ ๋„ ์ด์™€ ๋น„์Šทํ•œ ์•„ํ‚คํ…์ฒ˜์ธ์ง€ ๊ถ๊ธˆํ•˜๊ณ , 24๋…„๋„์ธ ์ง€๊ธˆ์€ ์–ด๋А ์ˆ˜์ค€๊นŒ์ง€ ์™”๋Š”์ง€ ๊ถ๊ธˆํ•˜๋‹ค.

profile
์œ ์ •๋ฏผ

0๊ฐœ์˜ ๋Œ“๊ธ€