Deep Reinforcement Learning(Deep RL, 딥 강화학습)은 강화학습(Reinforcement Learning)과 딥러닝(Deep Learning)을 결합한 기술로, 복잡한 환경의 상태와 행동 관계를 신경망으로 학습하는 방법입니다.
이는 학습 에이전트가 주어진 환경에서 보상을 최대화하기 위해 최적의 행동 정책을 학습하는 강화학습의 목표를 딥러닝의 표현 학습 능력으로 확장한 기술입니다.
특히 딥러닝의 특징 추출 능력을 강화학습의 목표 지향적 학습과 결합하여 놀라운 성과를 달성한 기술입니다.
딥 강화학습은 특히 고차원 데이터(예: 이미지)나 매우 복잡한 상태 공간을 갖는 문제를 처리하는 데 강력합니다.
에이전트가 환경과 상호작용하며, 환경에서의 상태(state)를 관찰하고 행동(action)을 선택하여 보상(reward)을 받습니다.
딥러닝에서는 신경망(Deep Neural Network, DNN)을 사용하여 데이터를 통해 패턴을 학습합니다.
복잡한 환경에서의 상태-행동 관계를 추상화하는 데 신경망을 활용합니다.
예: 픽셀 수준의 이미지 데이터에서 에이전트가 "현재 상태가 무엇인지" 학습한 뒤, 이를 기반으로 최적의 행동을 학습합니다.
에이전트는 환경과 상호작용을 통해 상태(state)를 관찰하고 행동(action)을 선택합니다.
각 행동에 따라 보상(reward)을 받고 새로운 상태로 전환됩니다.
에이전트는 딥러닝 모델(DNN)을 활용하여 상태와 행동의 관계를 학습합니다.
예: 상태 공간이 픽셀로 이루어진 이미지라면, CNN(합성곱 신경망)을 활용해 의미 있는 특징을 추출하고,
학습된 특징에 따라 행동을 예측합니다.
보상을 최대화하기 위해 신경망의 파라미터를 업데이트합니다.
에이전트는 지속적으로 환경과 상호작용하며, 자신의 행동 정책을 개선해 나갑니다.
값 기반 알고리즘은 Q-값을 추정하여 최적 행동을 선택합니다.
DQN(Deep Q-Network)
딥러닝을 활용해 상태와 행동의 가치(Q값)를 학습합니다.
최적의 행동을 선택하기 위해 다음 상태에서의 최대 Q값을 기반으로 의사결정을 수행합니다.
예: Atari 게임 플레이 (픽셀 데이터를 입력으로 처리).
REINFORCE
PPO(Proximal Policy Optimization)
A3C (Asynchronous Advantage Actor-Critic)
SAC (Soft Actor-Critic)
Atari 게임, StarCraft, Dota2, AlphaGo(바둑) 등에서 뛰어난 성과를 보임.
학습한 에이전트가 최고의 인간 플레이어와 경쟁하거나 이를 능가하는 사례 다수.
고차원 데이터 처리
일반화 능력
강력한 성능
샘플 효율성 문제
환경과의 상호작용 데이터를 많이 필요로 하기 때문에, 학습 시간이 길고 비용이 높습니다.
불안정한 학습
해석 가능성 부족
현실 적용 어려움