πŸŽ“ RL1 - κ°•ν™”ν•™μŠ΅μ΄λž€?

MinSeok_CSEΒ·2025λ…„ 1μ›” 24일

Reinforcement Learning

λͺ©λ‘ 보기
1/5
post-thumbnail

πŸŽ“ κ°•ν™”ν•™μŠ΅(Reinforcement Learning, RL)μ΄λž€?

κ°•ν™”ν•™μŠ΅(Reinforcement Learning, RL)은 인곡지λŠ₯(AI)κ³Ό λ¨Έμ‹ λŸ¬λ‹μ˜ ν•œ λΆ„μ•Όλ‘œ, μ—μ΄μ „νŠΈ(Agent)κ°€ ν™˜κ²½(Environment)κ³Ό μƒν˜Έμž‘μš©ν•˜λ©΄μ„œ μ‹œν–‰μ°©μ˜€(Trial and Error)λ₯Ό 톡해 졜적의 행동(Optimal Action)을 ν•™μŠ΅ν•˜λŠ” 방법

πŸŽ“ κΈ°κ³„ν•™μŠ΅(Machine Learning, ML) λΆ„λ₯˜

λ¨Έμ‹ λŸ¬λ‹ λΆ„λ₯˜

  1. μ§€λ„ν•™μŠ΅
    μž…λ ₯ 데이터와 μ •λ‹΅(Label)을 μ‚¬μš©ν•˜μ—¬ ν•™μŠ΅ν•˜μ—¬ μƒˆλ‘œμš΄ μž…λ ₯에 λŒ€ν•΄ μ •ν™•ν•œ 좜λ ₯을 예츑
  2. λΉ„μ§€λ„ν•™μŠ΅
    μ •λ‹΅(Label) 없이 λ°μ΄ν„°μ˜ ꡬ쑰λ₯Ό ν•™μŠ΅ν•˜μ—¬ λ°μ΄ν„°μ˜ νŒ¨ν„΄μ΄λ‚˜ 그룹을 발견.
  3. κ°•ν™”ν•™μŠ΅
    μ—μ΄μ „νŠΈκ°€ ν™˜κ²½κ³Ό μƒν˜Έμž‘μš©ν•˜λ©° 보상을 μ΅œλŒ€ν™”ν•˜λŠ” λ°©μ‹μœΌλ‘œ ν•™μŠ΅ 졜적의 행동(μ •μ±…)을 ν•™μŠ΅

πŸŽ“ κ°•ν™”ν•™μŠ΅(Reinforcement Learning, RL) κ°œλ…

"κ°•ν™”ν•™μŠ΅μ˜ λͺ©μ μ€ μ£Όμ–΄μ§„ ν™˜κ²½(Environment) λ‚΄μ—μ„œ μ—μ΄μ „νŠΈ(agent)κ°€ μ•‘μ…˜(Action)을 μ·¨ν•  λ•Œ, 보상 μ •μ±…(Policy)에 따라 κ΄€λ ¨λœ λ³€μˆ˜ μƒνƒœ s와 보상이 μˆ˜μ •λœλ‹€."
κ°•ν™”ν•™μŠ΅ λ§€μ»€λ‹ˆμ¦˜

κ°•ν™”ν•™μŠ΅μ—μ„œ μ—μ΄μ „νŠΈλŠ” ν™˜κ²½(Enveironment)κ³Ό μƒν˜Έμž‘μš©ν•˜λ©΄μ„œ ν•™μŠ΅ν•˜λ©° 이 κ³Όμ •μ—μ„œ μ—μ΄μ „νŠΈλŠ” ν™˜κ²½μ— λŒ€ν•œ 사전 지식이 μ—†κΈ° λ•Œλ¬Έμ—, λ‹€μ–‘ν•œ 행동(Action)을 μ‹œλ„ν•˜λ©° μ‹œν–‰μ°©μ˜€(Trial and Error)λ₯Ό κ±°μΉœλ‹€. 이λ₯Ό 톡해 μ–΄λ–€ 행동이 더 λ‚˜μ€ 보상을 κ°€μ Έμ˜€λŠ”μ§€ 점차 배우고, μ΅œμ’…μ μœΌλ‘œ 보상(Reward)을 μ΅œλŒ€ν™”ν•˜λŠ” 방법을 ν•™μŠ΅ν•˜κ²Œ λœλ‹€.

πŸ”Ž μ˜ˆμ‹œ

πŸŽ“ κ°•ν™”ν•™μŠ΅ λΆ„λ₯˜

κ°•ν™”ν•™μŠ΅ λΆ„λ₯˜
κ°•ν™”ν•™μŠ΅μ€ 크게 2κ°€μ§€λ‘œ λ‚˜λ‰˜λŠ”λ° λ°”λ‘œ Model-Free RLκ³Ό Model-Based RL이닀.

  • Model-Free RL:
    λͺ¨λΈμ΄ μ—†λŠ” κ°•ν™”ν•™μŠ΅μœΌλ‘œ, μ—μ΄μ „νŠΈκ°€ ν™˜κ²½μ˜ λͺ¨λΈμ„ μ•Œμ§€ λͺ»ν•œ μƒνƒœμ—μ„œ μ‹œν–‰μ°©μ˜€(Trial and Error)λ₯Ό 톡해 ν•™μŠ΅ν•˜λŠ” λ°©λ²•μœΌλ‘œ κ°•ν™”ν•™μŠ΅ν•˜λ©΄ Model-Free RL을 생각할 μ •λ„λ‘œ λŒ€ν‘œμ μΈ 방식이며 ν™˜κ²½μ„ μ •ν™•νžˆ λͺ¨λΈλ§ν•˜κΈ° μ–΄λ ΅κ±°λ‚˜ λͺ¨λΈλ§μ΄ ν•„μš”ν•˜μ§€ μ•Šμ€ 상황에 μ‚¬μš©λœλ‹€. ν™˜κ²½μ˜ λͺ¨λΈμ΄ μ—†κΈ° λ•Œλ¬Έμ— Model-Based RL에 λΉ„ν•΄ ν•™μŠ΅ μ‹œκ°„μ΄ 였래 κ±Έλ¦¬λŠ” 단점이 μžˆλ‹€.

  • Model-Based RL:
    ν™˜κ²½μ˜ λͺ¨λΈμ„ ν•™μŠ΅ν•˜κ±°λ‚˜, 사전에 제곡된 ν™˜κ²½μ˜ λͺ¨λΈμ„ ν™œμš©ν•΄ 정책을 ν•™μŠ΅ν•˜λŠ” λ°©λ²•μœΌλ‘œ ν™˜κ²½μ˜ λͺ¨λΈμ΄ 있으면 μ—μ΄μ „νŠΈκ°€ 행동 κ²°κ³Όλ₯Ό 미리 μ˜ˆμΈ‘ν•  수 μžˆμ–΄ ν•™μŠ΅ 효율(Sample Efficiency)이 λ†’μ•„μ§€μ§€λ§Œ, ν˜„μ‹€ μ„Έκ³„μ—μ„œλŠ” ν™˜κ²½ λͺ¨λΈμ„ μ •ν™•νžˆ μ•„λŠ” 것이 μ–΄λ ΅κ±°λ‚˜ λΆˆκ°€λŠ₯ν•œ κ²½μš°κ°€ λ§Žμ•„ 적용이 μ œν•œμ μ΄λ‹€. ν•˜μ§€λ§Œ κ²Œμž„(λ°”λ‘‘, 체슀 λ“±)처럼 κ·œμΉ™μ΄ λͺ…ν™•ν•˜κ³  ν™˜κ²½ λͺ¨λΈμ„ μ™„λ²½νžˆ μ •μ˜ν•  수 μžˆλŠ” 경우 Model-Based RL을 μ‚¬μš©λŠ” 것이 μœ λ¦¬ν•˜λ‹€.

πŸŽ“ μš©μ–΄ 정리

  • Model
    ν™˜κ²½ 자체의 동역학을 κ·Όμ‚¬ν•˜λŠ” λͺ¨ν˜•μœΌλ‘œ ν™˜κ²½μ΄ μ•„λ‹ˆλΌ, ν™˜κ²½μ˜ κ·œμΉ™(물리법칙, κ²Œμž„ κ·œμΉ™)을 μ΄ν•΄ν•˜κ³  μžˆλŠ” 것 β†’ λͺ¨λΈμ„ μ•Œκ³  μžˆλ‹€λ©΄ ν•™μŠ΅ 속도와 νš¨μœ¨μ„±μ΄ λ†’μ•„μ§ˆ 수 있음
    ν™˜κ²½: 지ꡬ
    λͺ¨λΈ: μ§€κ΅¬μƒμ˜ 물리법칙(쀑λ ₯, 곡기저항 λ“±..)
  • Action
    Agentκ°€ μ‹€ν–‰ν•œ μ‹€μ œ 행동 Policy에 μ˜ν•΄ λ„μΆœλ˜κ³  a둜 ν‘œν˜„
  • State
    Agentκ°€ 행동을 κ²°μ •ν•˜κΈ° μœ„ν•΄ ν•„μš”ν•œ ꡬ체적 정보(ex. μœ„μΉ˜, 속도)λ₯Ό λ§ν•œλ‹€. Agentκ°€ action을 ν•˜λ©΄, 그에따라 ν™˜κ²½μ΄ agent의 μƒνƒœλ₯Ό λ³€ν™”μ‹œν‚΄ ν”νžˆ s둜 ν‘œν˜„
  • Environment
    μ—μ΄μ „νŠΈμ˜ 행동에 따라 λ³€ν™”λ₯Ό μΌμœΌν‚€λŠ” μ‹œμŠ€ν…œ
  • Reward
    μ—μ΄μ „νŠΈκ°€ 행동을 μˆ˜ν–‰ν•œ 결과둜 λ°›λŠ” κ°’μœΌλ‘œ νŠΉμ • 행동을 μœ λ°œμ‹œν‚€κΈ° μœ„ν•΄ positive reward(보상)λ₯Ό, νŠΉμ • 행동을 κΈˆμ§€μ‹œν‚€κΈ° μœ„ν•΄ negative reward(벌점)λ₯Ό μ·¨ν•  수 μžˆλ‹€.
  • Policy
    Agentκ°€ μ›€μ§μ΄λŠ” 행동 λ°©ν–₯. μ •μ±…μœΌλ‘œλ„ 뢈리며, 크게 deterministic policy와 stochastic policy둜 λ‚˜λ‰œλ‹€.

πŸŽ“ ν–₯ν›„ 연ꡬ κ³„νš

ν˜„μž¬ μ—°κ΅¬μ˜ λͺ©μ  : "Playing Atari with Deep Reinforcement Learning"을 읽기 μœ„ν•œ 기초 λ°œνŒμ„ 마련

  1. 마λ₯΄μ½”ν”„ κ²°μ • κ³Όμ •(MDP)
    μƒνƒœ, 행동, 보상, μƒνƒœ 전이 ν™•λ₯ , ν• μΈμœ¨μ— λŒ€ν•œ μˆ˜ν•™μ  μ •μ˜μ™€ 이해

  2. Q-learningκ³Ό λ”₯ Q λ„€νŠΈμ›Œν¬(DQN)
    Q-learning μ•Œκ³ λ¦¬μ¦˜μ˜ 원리 이해 DQN의 ꡬ쑰와 μ£Όμš” ꡬ성 μš”μ†Œ (Replay Buffer, Target Network λ“±)에 λŒ€ν•œ 탐ꡬ

0개의 λŒ“κΈ€