[Deep Reinforcement Learning] 16강 Deep Reinforcement Learning

Woosci·2025년 7월 18일

👨‍🏫학습목표

오늘은 지금까지 배웠던 Reinforcement LearningDeep Reinforcement Learning의 차이 그리고 각 방식의 역사에 대해 배워볼 예정이다.

👨‍🎓강의영상: https://www.youtube.com/watch?v=TL1RavBMag8&list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC&index=16

1️⃣ RL vs DRL

🔷 Reinforcement Learning (RL)

🔻 Tabular updating method

  • Q(s,a)Q(s,a) 값을 table로 기록한다.

  • Q(s,a)Q(s,a) 값을 Bellman equation을 통해 반복적으로 업데이트한다.

  • 대표적인 방법: Monte Carlo, Sarsa, Q-learning

  • State-action의 크기가 커질수록 차지하는 memory가 많아진다.


🔷 Deep Reinforcement Learning (DRL)

🔻 Function approximation method

  • State-action value function이나 policy신경망을 통해 근사한다.

  • 함수를 구하기 때문에 함수값 Q(s,a)Q(s,a)를 모두 기록할 필요가 없다.

  • Deep Q-Network (DQN): Q(s,a)Q(s,a)를 출력한다.

  • Policy Gradient (REINFORCE): policy π(as)\pi(a|s)를 근사한다.

  • Actor-Critic (A3C): Q(s,a)Q(s,a)π(as)\pi(a|s)를 모두 근사한다.

  • State-action space가 훨씬 커도 적용 가능하다.

  • Data가 Continuous한 경우에도 적용할 수 있다.

  • Label 없이 학습을 한다.



2️⃣ Why DRL?

🔷 Deep Reinforcement Learning

  • 빅데이터, 신경망 기술의 발달, 연산 능력 향상으로 DRL이 게임, 로보틱스, 자율주행차 등 다양한 분야에서 활용되고 있다.

  • 로보틱스에서는 state space가 굉장히 크다. 이를 DL을 통해 low-dimension으로 조정할 수 있다.


🔻 대표적인 모델




3️⃣ Milestones in DRL

🔻 1. Trial-and-error learning

  • 시행착오 학습법으로 동물의 학습 행동에 대한 심리학 연구를 통해 시작되었다.

  • Law of Effect : 동물이 어떤 행동을 한 후 얻은 자극을 토대로 행동 결정을 한다는 이론이다.

  • SNARC : 강화학습 개념을 처음으로 컴퓨터 모델로 구현한 것


🔻 2. Dynamic Programming

  • Optimal Control (최적 제어)

  • Markov Decision Process

  • Bellman equation


🔻 3. Q-learning

  • Trial-and-error learning과 Dynamic Programming이 합쳐져 탄생하였다.

  • finite state space

  • finite action space


🔻 4. Deep Learning

  • Programming 방식으로 시작하였다.

  • 이후 Perceptron이 등장하면서 Learning 방식이 등장하였다.

  • Backpropagation

  • CNN, LSTM


🔷 Deep Reinforcement Learning

  • Deep Learning과 Reinforcement 학문이 합쳐져 등장하였다.

  • DQN의 등장으로 시작되었다.

  • Large or continuous state space

  • TRPO, DDPG : Continuous action space로 확장되었다.

  • PPO : TRPO를 더욱 쉽게 업데이트 할 수 있도록 개선하였다.



4️⃣ 정리

🔷 16강에서 배운 내용은 아래와 같다.

  1. RL과 DRL의 차이를 살펴보았다.
  2. Deep Reinforcement Learning의 장점을 살펴보았다.
  3. Deep Reinforcement Learning의 발전과정을 살펴보았다.
profile
I'm curious about AI

0개의 댓글