강화 학습(reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.
동적 계획법 (Dynamic Programming) 이란, 복잡한 문제를 더 작은 하위 문제로 나누어 해결하는 알고리즘 설계 기법이다.
대표 논문: "The Theory of Dynamic Programming" by Richard Bellman (1954) 링크
중요성: Richard Bellman이 개발한 동적 프로그래밍은 강화학습의 이론적 기초를 마련했다. Bellman 방정식과 마르코프 결정 과정(MDPs)의 도입은 최적 제어 문제를 해결하는 수학적 프레임워크를 제공했으며, 이후 모든 강화학습 알고리즘의 기반이 되었다. 이 접근법은 상태 가치 함수와 최적 반환 함수의 개념을 사용하여 순차적 의사결정 문제를 해결하는 방법을 제시했다.
강화학습의 근간을 이루는 개념으로, 에이전트가 환경과의 상호작용을 통해 최적의 행동을 학습하는 방법을 제시한다. 벨만 방정식(Bellman Equation)과 가치 함수(Value Function)의 개념이 여기서 시작된다.
대표 논문: "Learning to Predict by the Methods of Temporal Differences" by Richard S. Sutton (1988)
링크: http://incompleteideas.net/papers/sutton-88-with-erratum.pdf
중요성: 시간차(TD) 학습은 환경과의 상호작용을 통해 얻은 경험으로부터 직접 학습하는 방법으로, 완전한 모델 없이도 가치 함수를 추정할 수 있게 했다. 이 논문은 TD 학습의 기본 원리를 확립하고, 이후 Q-학습과 SARSA와 같은 알고리즘의 기초가 되었다. TD 학습은 이전 예측과 현재 예측 사이의 차이를 사용하여 학습하는 방법으로, 강화학습의 핵심 개념 중 하나이다.
중요성: 모델-프리(model-free) 강화학습의 가장 기본적인 알고리즘 중 하나로, 환경에 대한 지식 없이도 최적의 행동 가치 함수를 학습할 수 있게 한다. 상태-행동 가치 함수를 직접 학습하는 방법으로, 최적 정책을 명시적으로 모델링하지 않고도 찾을 수 있게 한다. 이 접근법은 모델 없는(model-free) 강화학습의 중요한 발전을 이루었으며, 함수 근사 방법과 결합하여 대규모 상태 공간을 가진 문제에 적용할 수 있게 되었다. Q-학습은 오늘날까지도 강화학습의 기본 알고리즘으로 널리 사용되고 있다.
논문: Q-Learning (1992) by Christopher J.C.H. Watkins and Peter Dayan
링크: http://www.gatsby.ucl.ac.uk/~dayan/papers/w92.pdf
설명: Q-learning은 이후 심층 Q-네트워크(DQN)와 같은 심층 강화학습의 기반이 되었습니다.
중요성: 심층 신경망(Deep Neural Networks)을 가치 함수나 정책 함수를 근사하는 데 사용하여, 복잡하고 고차원적인 환경에서도 강화학습을 성공적으로 적용할 수 있게 만들었다. Atari 게임에서 인간 수준의 성능을 뛰어넘는 결과를 보여주며 큰 주목을 받았다.
논문: Playing Atari with Deep Reinforcement Learning (2013) by Volodymyr Mnih et al. (Google DeepMind)
링크: https://arxiv.org/abs/1312.5602
설명: 이 논문에서 제안된 Deep Q-Network (DQN)는 심층 신경망을 활용한 최초의 성공적인 강화학습 사례로, 이후 DRL 연구의 폭발적인 성장을 이끌었다.
이 논문은 심층 신경망과 강화학습을 결합한 Deep Q-Network(DQN)를 소개하며, Atari 게임에서 인간 수준의 성능을 달성했다. 이 접근법은 심층 신경망을 사용하여 고차원 입력(픽셀)에서 직접 정책을 학습할 수 있게 했으며, 강화학습의 응용 범위를 크게 확장했다. DQN의 성공은 경험 리플레이(experience replay)와 타겟 네트워크(target network)와 같은 혁신적인 기법을 도입하여 심층 강화학습의 안정성을 크게 향상시켰다.
중요성: 이 논문은 정책 기반 방법의 이론적 기초를 제공하며, 정책을 직접 최적화하는 접근법을 소개했다. 이 방법은 연속적인 행동 공간을 가진 복잡한 문제에 더 효과적이며, 이후 Trust Region Policy Optimization(TRPO), Proximal Policy Optimization(PPO), Soft Actor-Critic(SAC) 등의 현대적인 알고리즘 개발에 영향을 미쳤다. 정책 기반 방법과 액터-크리틱 아키텍처는 로봇 제어, 자율 주행, 게임 플레이 등 다양한 분야에 성공적으로 적용되고 있다.
의의: 가치 기반(value-based) 방법의 한계를 극복하고, 정책을 직접적으로 학습하여 연속적인 행동 공간(continuous action spaces)에서도 적용 가능한 강화학습 방법을 제공했다.
논문: Policy Gradient Methods for Reinforcement Learning with Function Approximation (2000) by Richard S. Sutton et al.
링크: https://proceedings.neurips.cc/paper/1999/file/460a8a68b809f653459c25df79b47e27-Paper.pdf
논문: Actor-Critic Algorithms (2000) by Vijay R. Konda and John N. Tsitsiklis
링크: https://papers.nips.cc/paper/1999/file/157d62054a3399435b6ba712176a9179-Paper.pdf
설명: 이러한 방법론은 이후 Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO) 등 더 발전된 정책 경사 알고리즘의 기반이 된다.
중요성: 현실 세계 적용에 필수적인 문제들을 다룬다. 모방 학습은 전문가의 시범을 통해 학습하여 샘플 효율성을 높이고 안전 문제를 해결하는 데 기여하며, 오프라인 강화학습은 미리 수집된 대규모 데이터셋을 활용하여 비용과 안전 문제 없이 효율적으로 학습할 수 있도록 한다.
논문: ALVINN: An Autonomous Land Vehicle In a Neural Network (1989) by Dean A. Pomerleau
링크: https://www.ri.cmu.edu/pub_files/1989/10/89-08_Pomerleau.pdf
설명: 초기의 자율주행 연구에서 운전자의 행동을 모방하는 데 사용되었으며, 모방 학습의 시초로 볼 수 있다.
논문: P-DQN: A Practical Offline Reinforcement Learning Algorithm (2019) by Xinyue Zhang et al.
링크: https://arxiv.org/abs/1911.02891 (Offline RL 분야의 초기 중요 논문 중 하나)
설명: 오프라인 강화학습은 최근 몇 년간 매우 활발하게 연구되고 있는 분야로, 다양한 알고리즘(예: BCQ, CQL, IQL 등)이 제안되고 있다. 위에 제시된 논문은 해당 분야의 중요성을 보여주는 대표적인 예시이다.