
κ°ννμ΅(Reinforcement Learning, RL)μ μΈκ³΅μ§λ₯(AI)κ³Ό λ¨Έμ λ¬λμ ν λΆμΌλ‘, μμ΄μ νΈ(Agent)κ° νκ²½(Environment)κ³Ό μνΈμμ©νλ©΄μ μνμ°©μ€(Trial and Error)λ₯Ό ν΅ν΄ μ΅μ μ νλ(Optimal Action)μ νμ΅νλ λ°©λ²

"κ°ννμ΅μ λͺ©μ μ μ£Όμ΄μ§ νκ²½(Environment) λ΄μμ μμ΄μ νΈ(agent)κ° μ‘μ
(Action)μ μ·¨ν λ, 보μ μ μ±
(Policy)μ λ°λΌ κ΄λ ¨λ λ³μ μν sμ 보μμ΄ μμ λλ€."


κ°ννμ΅μμ μμ΄μ νΈλ νκ²½(Enveironment)κ³Ό μνΈμμ©νλ©΄μ νμ΅νλ©° μ΄ κ³Όμ μμ μμ΄μ νΈλ νκ²½μ λν μ¬μ μ§μμ΄ μκΈ° λλ¬Έμ, λ€μν νλ(Action)μ μλνλ©° μνμ°©μ€(Trial and Error)λ₯Ό κ±°μΉλ€. μ΄λ₯Ό ν΅ν΄ μ΄λ€ νλμ΄ λ λμ 보μμ κ°μ Έμ€λμ§ μ μ°¨ λ°°μ°κ³ , μ΅μ’
μ μΌλ‘ 보μ(Reward)μ μ΅λννλ λ°©λ²μ νμ΅νκ² λλ€.

κ°ννμ΅μ ν¬κ² 2κ°μ§λ‘ λλλλ° λ°λ‘ Model-Free RLκ³Ό Model-Based RLμ΄λ€.
Model-Free RL:
λͺ¨λΈμ΄ μλ κ°ννμ΅μΌλ‘, μμ΄μ νΈκ° νκ²½μ λͺ¨λΈμ μμ§ λͺ»ν μνμμ μνμ°©μ€(Trial and Error)λ₯Ό ν΅ν΄ νμ΅νλ λ°©λ²μΌλ‘ κ°ννμ΅νλ©΄ Model-Free RLμ μκ°ν μ λλ‘ λνμ μΈ λ°©μμ΄λ©° νκ²½μ μ νν λͺ¨λΈλ§νκΈ° μ΄λ ΅κ±°λ λͺ¨λΈλ§μ΄ νμνμ§ μμ μν©μ μ¬μ©λλ€. νκ²½μ λͺ¨λΈμ΄ μκΈ° λλ¬Έμ Model-Based RLμ λΉν΄ νμ΅ μκ°μ΄ μ€λ 걸리λ λ¨μ μ΄ μλ€.
Model-Based RL:
νκ²½μ λͺ¨λΈμ νμ΅νκ±°λ, μ¬μ μ μ 곡λ νκ²½μ λͺ¨λΈμ νμ©ν΄ μ μ±
μ νμ΅νλ λ°©λ²μΌλ‘ νκ²½μ λͺ¨λΈμ΄ μμΌλ©΄ μμ΄μ νΈκ° νλ κ²°κ³Όλ₯Ό 미리 μμΈ‘ν μ μμ΄ νμ΅ ν¨μ¨(Sample Efficiency)μ΄ λμμ§μ§λ§, νμ€ μΈκ³μμλ νκ²½ λͺ¨λΈμ μ νν μλ κ²μ΄ μ΄λ ΅κ±°λ λΆκ°λ₯ν κ²½μ°κ° λ§μ μ μ©μ΄ μ νμ μ΄λ€. νμ§λ§ κ²μ(λ°λ, μ²΄μ€ λ±)μ²λΌ κ·μΉμ΄ λͺ
ννκ³ νκ²½ λͺ¨λΈμ μλ²½ν μ μν μ μλ κ²½μ° Model-Based RLμ μ¬μ©λ κ²μ΄ μ 리νλ€.
νμ¬ μ°κ΅¬μ λͺ©μ : "Playing Atari with Deep Reinforcement Learning"μ μ½κΈ° μν κΈ°μ΄ λ°νμ λ§λ ¨
λ§λ₯΄μ½ν κ²°μ κ³Όμ (MDP)
μν, νλ, 보μ, μν μ μ΄ νλ₯ , ν μΈμ¨μ λν μνμ μ μμ μ΄ν΄
Q-learningκ³Ό λ₯ Q λ€νΈμν¬(DQN)
Q-learning μκ³ λ¦¬μ¦μ μ리 μ΄ν΄ DQNμ ꡬ쑰μ μ£Όμ κ΅¬μ± μμ (Replay Buffer, Target Network λ±)μ λν νꡬ