키워드 정리로 배우는 강화 학습

Dyung·2025년 5월 21일

RL

목록 보기

2/2

강화 학습(reinforcement learning)은 기계 학습의 한 영역이다. 행동심리학에서 영감을 받았으며, 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여, 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이다.

동적 계획법 (1950)

동적 계획법 (Dynamic Programming) 이란, 복잡한 문제를 더 작은 하위 문제로 나누어 해결하는 알고리즘 설계 기법이다.

대표 논문: "The Theory of Dynamic Programming" by Richard Bellman (1954) 링크

중요성: Richard Bellman이 개발한 동적 프로그래밍은 강화학습의 이론적 기초를 마련했다. Bellman 방정식과 마르코프 결정 과정(MDPs)의 도입은 최적 제어 문제를 해결하는 수학적 프레임워크를 제공했으며, 이후 모든 강화학습 알고리즘의 기반이 되었다. 이 접근법은 상태 가치 함수와 최적 반환 함수의 개념을 사용하여 순차적 의사결정 문제를 해결하는 방법을 제시했다.

시간차 학습 (Temporal-Difference Learning) (1980)

강화학습의 근간을 이루는 개념으로, 에이전트가 환경과의 상호작용을 통해 최적의 행동을 학습하는 방법을 제시한다. 벨만 방정식(Bellman Equation)과 가치 함수(Value Function)의 개념이 여기서 시작된다.

대표 논문: "Learning to Predict by the Methods of Temporal Differences" by Richard S. Sutton (1988)

링크: http://incompleteideas.net/papers/sutton-88-with-erratum.pdf

중요성: 시간차(TD) 학습은 환경과의 상호작용을 통해 얻은 경험으로부터 직접 학습하는 방법으로, 완전한 모델 없이도 가치 함수를 추정할 수 있게 했다. 이 논문은 TD 학습의 기본 원리를 확립하고, 이후 Q-학습과 SARSA와 같은 알고리즘의 기초가 되었다. TD 학습은 이전 예측과 현재 예측 사이의 차이를 사용하여 학습하는 방법으로, 강화학습의 핵심 개념 중 하나이다.

Q-Learning (1990)

중요성: 모델-프리(model-free) 강화학습의 가장 기본적인 알고리즘 중 하나로, 환경에 대한 지식 없이도 최적의 행동 가치 함수를 학습할 수 있게 한다. 상태-행동 가치 함수를 직접 학습하는 방법으로, 최적 정책을 명시적으로 모델링하지 않고도 찾을 수 있게 한다. 이 접근법은 모델 없는(model-free) 강화학습의 중요한 발전을 이루었으며, 함수 근사 방법과 결합하여 대규모 상태 공간을 가진 문제에 적용할 수 있게 되었다. Q-학습은 오늘날까지도 강화학습의 기본 알고리즘으로 널리 사용되고 있다.

논문: Q-Learning (1992) by Christopher J.C.H. Watkins and Peter Dayan

링크: http://www.gatsby.ucl.ac.uk/~dayan/papers/w92.pdf

설명: Q-learning은 이후 심층 Q-네트워크(DQN)와 같은 심층 강화학습의 기반이 되었습니다.

심층 강화학습 (Deep Reinforcement Learning, DRL) (2010)

중요성: 심층 신경망(Deep Neural Networks)을 가치 함수나 정책 함수를 근사하는 데 사용하여, 복잡하고 고차원적인 환경에서도 강화학습을 성공적으로 적용할 수 있게 만들었다. Atari 게임에서 인간 수준의 성능을 뛰어넘는 결과를 보여주며 큰 주목을 받았다.

DQN

논문: Playing Atari with Deep Reinforcement Learning (2013) by Volodymyr Mnih et al. (Google DeepMind)

링크: https://arxiv.org/abs/1312.5602

설명: 이 논문에서 제안된 Deep Q-Network (DQN)는 심층 신경망을 활용한 최초의 성공적인 강화학습 사례로, 이후 DRL 연구의 폭발적인 성장을 이끌었다.

이 논문은 심층 신경망과 강화학습을 결합한 Deep Q-Network(DQN)를 소개하며, Atari 게임에서 인간 수준의 성능을 달성했다. 이 접근법은 심층 신경망을 사용하여 고차원 입력(픽셀)에서 직접 정책을 학습할 수 있게 했으며, 강화학습의 응용 범위를 크게 확장했다. DQN의 성공은 경험 리플레이(experience replay)와 타겟 네트워크(target network)와 같은 혁신적인 기법을 도입하여 심층 강화학습의 안정성을 크게 향상시켰다.

정책 경사법 (Policy Gradient Methods) & 액터-크리틱 (Actor-Critic) 알고리즘 (2010)

중요성: 이 논문은 정책 기반 방법의 이론적 기초를 제공하며, 정책을 직접 최적화하는 접근법을 소개했다. 이 방법은 연속적인 행동 공간을 가진 복잡한 문제에 더 효과적이며, 이후 Trust Region Policy Optimization(TRPO), Proximal Policy Optimization(PPO), Soft Actor-Critic(SAC) 등의 현대적인 알고리즘 개발에 영향을 미쳤다. 정책 기반 방법과 액터-크리틱 아키텍처는 로봇 제어, 자율 주행, 게임 플레이 등 다양한 분야에 성공적으로 적용되고 있다.

의의: 가치 기반(value-based) 방법의 한계를 극복하고, 정책을 직접적으로 학습하여 연속적인 행동 공간(continuous action spaces)에서도 적용 가능한 강화학습 방법을 제공했다.

논문: Policy Gradient Methods for Reinforcement Learning with Function Approximation (2000) by Richard S. Sutton et al.

링크: https://proceedings.neurips.cc/paper/1999/file/460a8a68b809f653459c25df79b47e27-Paper.pdf

Actor-Critic

논문: Actor-Critic Algorithms (2000) by Vijay R. Konda and John N. Tsitsiklis

링크: https://papers.nips.cc/paper/1999/file/157d62054a3399435b6ba712176a9179-Paper.pdf

설명: 이러한 방법론은 이후 Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO) 등 더 발전된 정책 경사 알고리즘의 기반이 된다.

모방 학습 (Imitation Learning) & 오프라인 강화학습 (Offline Reinforcement Learning)

Imitation Learning (Behavioral Cloning)

중요성: 현실 세계 적용에 필수적인 문제들을 다룬다. 모방 학습은 전문가의 시범을 통해 학습하여 샘플 효율성을 높이고 안전 문제를 해결하는 데 기여하며, 오프라인 강화학습은 미리 수집된 대규모 데이터셋을 활용하여 비용과 안전 문제 없이 효율적으로 학습할 수 있도록 한다.

논문: ALVINN: An Autonomous Land Vehicle In a Neural Network (1989) by Dean A. Pomerleau

링크: https://www.ri.cmu.edu/pub_files/1989/10/89-08_Pomerleau.pdf

설명: 초기의 자율주행 연구에서 운전자의 행동을 모방하는 데 사용되었으며, 모방 학습의 시초로 볼 수 있다.

Offline Reinforcement Learning

논문: P-DQN: A Practical Offline Reinforcement Learning Algorithm (2019) by Xinyue Zhang et al.

링크: https://arxiv.org/abs/1911.02891 (Offline RL 분야의 초기 중요 논문 중 하나)

설명: 오프라인 강화학습은 최근 몇 년간 매우 활발하게 연구되고 있는 분야로, 다양한 알고리즘(예: BCQ, CQL, IQL 등)이 제안되고 있다. 위에 제시된 논문은 해당 분야의 중요성을 보여주는 대표적인 예시이다.

Dyung

AI / NLP / NLU

이전 포스트