
Q-Learning์ ๋ฐฐ์ฐ๊ธฐ์ ์์, ๋จผ์ DQN(Deep Q-Network)์ ๋ํด ์ด์ผ๊ธฐํด๋ณด์.
2013๋ , ๊ตฌ๊ธ ๋ฅ๋ง์ธ๋๋ "Playing Atari with Deep Reinforcement Learning"์ด๋ผ๋ ๋ ผ๋ฌธ์ ๋ฐํํ๋ค. ์ด ๋ ผ๋ฌธ์ Atari 2600์ 7๊ฐ์ง ๊ฒ์ ์ค 6๊ฐ์ง์์ ์ ๊ธฐ๋ก์ ๋ฌ์ฑํ ์ ๋๋ก ๊ธฐ์กด ๊ฐํํ์ต ๊ธฐ๋ฒ์ ํ์ ์ ๊ฐ์ ธ์จ ๊ธฐ์ ์ ์๊ฐํ๋ค. ๊ธฐ์กด์ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ํ๊ฒฝ์ ๋์์ ๋ถ์ํ์ฌ ํ์ตํ๋ ๋ฐฉ์์ด์์ง๋ง, ๋ฅ๋ง์ธ๋๋ ๊ฒ์์ ์๋ณธ ํฝ์ ์ ์ง์ ์ ๋ ฅ๋ฐ์ ํ์ตํ๋ ๋ฐฉ์์ ๋์ ํ๋ค. ์ด๋ฅผ DQN(Deep Q-Network, ์ฌ์ธต Q-๋คํธ์ํฌ)๋ผ๊ณ ํ๋ฉฐ, ์ด ๋ ผ๋ฌธ์ด DQN์ ์ถ๋ฐ์ ์ด๋ผ๊ณ ํ ๋งํผ ํฐ ์ํฅ์ ๋ฏธ์ณค๋ค.
๊ทธ๋ฐ๋ฐ, DQN์ ํต์ฌ ์๊ณ ๋ฆฌ์ฆ์ด ๋ฐ๋ก Q-Learning์ด๋ค.
DQN์ ์ดํดํ๊ธฐ ์ํด์๋ ๋จผ์ Q-Learning์ด ๋ฌด์์ธ์ง, ๊ทธ๋ฆฌ๊ณ ๊ธฐ์กด Q-Learning์ด ์ด๋ค ํ๊ณ๋ฅผ ๊ฐ์ก๊ธฐ์ DQN์ด ํ์ํ๊ฒ ๋์๋์ง๋ฅผ ์ดํดํด์ผ ํ๋ค.
Q-Learning์ ์ด๋ฏธ ์์ญ ๋ ์ ์ ๊ฐ๋ฐ๋ ๊ธฐ๋ฒ์ผ๋ก, ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ํตํด ์ต์ ์ ํ๋์ ํ์ตํ๋ ๋ชจ๋ธ ํ๋ฆฌ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ด๋ค. ๊ทธ๋ฌ๋ ๊ธฐ์กด Q-Learning์ ๊ณ ์ฐจ์ ํ๊ฒฝ์์์ ํ์ต์ด ์ด๋ ต๋ค๋ ํ๊ณ๋ฅผ ๊ฐ์ง๊ณ ์์๋ค. ํนํ, Q-ํ ์ด๋ธ ๋ฐฉ์์ ์ํ ๊ณต๊ฐ์ด ์ปค์ง์๋ก ๋ฉ๋ชจ๋ฆฌ์ ๊ณ์ฐ๋์ด ๊ธฐํ๊ธ์์ ์ผ๋ก ์ฆ๊ฐํ์ฌ ์ค์ฉ์ฑ์ด ๋จ์ด์ก๋ค.
๋ํ, ๋น์์๋ ์ง๊ธ๊ณผ ๊ฐ์ ๊ณ ์ฑ๋ฅ GPU๊ฐ ์กด์ฌํ์ง ์์๊ธฐ ๋๋ฌธ์, ๋๊ท๋ชจ ์ ๊ฒฝ๋ง์ ํ์ต์ํค๋ ๊ฒ์ด ์ด๋ ค์ ๋ค. ํ์ง๋ง ์ต๊ทผ GPU ์ฑ๋ฅ์ด ๋น์ฝ์ ์ผ๋ก ๋ฐ์ ํ๋ฉด์ ์ ๊ฒฝ๋ง์ ํ์ฉํ ์ฌ์ธต ๊ฐํํ์ต์ด ๊ฐ๋ฅํด์ก๊ณ , ์ด๋ฅผ ๊ธฐ๋ฐ์ผ๋ก DQN์ด ํ์ํ๋ค. ๋ฅ๋ง์ธ๋๋ ๊ธฐ์กด Q-Learning์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ์ฌ์ธต ์ ๊ฒฝ๋ง์ ํ์ฉํ์ฌ Q-๊ฐ์ ๊ทผ์ฌํ๋ ๋ฐฉ์์ ๋์ ํ๋ค. ์ด๋ฅผ ํตํด Q-Learning์ ํ์ฅํ์ฌ ํฝ์ ์์ค์ ๊ณ ์ฐจ์ ํ๊ฒฝ์์๋ ํ์ตํ ์ ์๋๋ก ๋ง๋ค์๋ค.
์ด์ฒ๋ผ DQN์ ๊ธฐ์กด Q-Learning์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ํ์ํ ์๊ณ ๋ฆฌ์ฆ์ด๋ค.
๋ฐ๋ผ์ Q-Learning์ ๋ฐฐ์ฐ๊ธฐ ์ ์, ๋จผ์ Q-Learning์ด ๊ฐ์ง ํ๊ณ๋ฅผ ์ดํดํ๋ ๊ฒ์ด ์ค์ํ๋ค. ์ด์ Q-Learning์ ์๋ฆฌ์ ๋ํด ์์ธํ ์์๋ณด์.
๋ณดํต Q๋ผ๋ฉด ์์์ ์ค๋ช ํ ํ๋-๊ฐ์น ํจ์ ์ ๋ ์ฌ๋ฆด ๊ฒ์ด๋ค. ์ค์ํ ์ ์ ์ด ํจ์ ์์ฒด๊ฐ Q-Learning์ ๊ณ ์ ํ๊ฒ ํน์งํ๋ ๊ฒ์ ์๋๋ค. Q-Learning์ ์ต์ ์ ๋์ ๊ฐ์น๋ค์ ํ์ตํ๋ ํ ๋ฐฉ๋ฒ ์ค์ ํ๋๋ก Q-Learning ์ธ์๋ ์ฌ๋ฌ ๊ฐ์ง๋ก ์กด์ฌํ๋ค.
Q-Learning์ ํต์ฌ์ ์ํ-๋์ ์์ ๊ฐ์น๋ฅผ ์์ธตํ๊ณ , ๊ทธ ์์ธก๊ฐ์น๋ฅผ ๋ช ์์ ์ดํ์ ๊ทธ๋๊น์ง ๊ด์ฐฐ๋ ๋์ ๋ณด์๊ณผ ๋น๊ตํ์ฌ ์๊ณ ๋ฆฌ์ฆ์ ๋งค๊ฐ๋ณ์๋ค์ ๊ฐฑ์ ํจ์ผ๋ก์จ ๋ ๋์ ๊ฐ์น๋ฅผ ์์ธกํ๋ ๊ฒ์ด๋ค.
Q-function
ํน์ ์ํ ์์ ํ๋ ๋ฅผ ํ์ ๋ ์ป์ ์ ์๋ ๋ฏธ๋ ๊ธฐ๋ ๋ณด์์ ๋ํ๋ธ๋ค.
์ต์ Q-ํจ์๋ ๋ค์๊ณผ ๊ฐ์ด ์ ์๋๋ค.
Q-Learning์ ๊ฐฑ์ ๊ท์น
Q-ํ
์ด๋ธ (Q-table)
