# reinforcement learning

40개의 포스트

[Reinforcement Learning] A2C

REINFORCE 알고리즘은 정책을 업데이트 하기 위해서 M개의 에피소드가 끝날 때 까지 기다려야하며, 그래디언트의 분산이 매우 크다는 단점이 있다. 이를 개선하기 위해 제시된 알고리즘이 어드벤티지 액터-크리틱(A2C, Advantage actor-critic)이다.

2021년 10월 13일
·
0개의 댓글

[Reinforcement Learning] Value-based Methods / Policy-based Methods

Value-based Methods Value-based Method에는 대표적으로 Q-Learning, Deep Q-Learning 등이 있다. Value function에 의해서 각각의 state마다 action에 대해서 가치(value)를 판단한다. 이를 통해서

2021년 10월 13일
·
0개의 댓글

[Reinforcement Learning] Policy Iteration / Value Iteration

벨만 방정식은 dynamic programming(DP)로 풀 수 있고, 이는 정책 이터레이션(Policy Iteration)과 가치 이터레이션(Value Iteration)으로 나뉜다. 정책 이터레이션은 탐욕적인 search 방법론이다.이는 정책에 따라 목표에 빠르게

2021년 10월 13일
·
0개의 댓글

[Reinforcement Learning] 강화학습 핵심 개념

인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다. 관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러

2021년 10월 7일
·
0개의 댓글

[Reinforcement Learning] MDP (Markov Decision Process)

인공지능에 대해서 들어본 사람들은 머신러닝(Machine Learning)과 딥러닝(Deep Learning)이 있다는 것을 알 수 있을 것이다. 관계를 간단하게 설명하자면, 인공지능(Artificial Intelligence)의 하위 개념으로 머신러닝이 있고, 머신러

2021년 10월 1일
·
0개의 댓글
post-thumbnail

[개념정리] 6. Value Function Approximation

Value function Approximation

2021년 9월 6일
·
0개의 댓글
post-thumbnail

[개념정리] 5. Off-Policy Control and Q-learning

Off-policy control and Q-Learning

2021년 9월 5일
·
0개의 댓글
post-thumbnail

[개념정리] 4. Monte Carlo and Temporal-Difference Methods

이전 글에서는 DP의 연산량 문제, 모델 필요성 등의 단점을 해결하기 위해 Sample backup과 관련된 방법들이 쓰인다고 했습니다. 이 중 대표적인 Monte Carlo방법에 대해 간략하게 다루어봅시다.

2021년 9월 1일
·
0개의 댓글

[코드 리뷰] 강화 학습 (DQN) 튜토리얼 - PyTorch

본 포스팅에서는 DQN tutorial을 검색하면 가장 먼저 등장하는 코드를 리뷰해보려고 한다. (Reference 링크 참고) 이전에 ssh 연결로 gym package를 사용하는 과정에서 매우 매우 불편함을 (연결된 monitor가 없어서 결과를 확인할 수 없다는

2021년 8월 29일
·
0개의 댓글
post-thumbnail

[개념정리] 3. Planning by Dynamic Programming(DP)

Dynamic programming(DP) in Reinforcement Learning

2021년 8월 27일
·
0개의 댓글
post-thumbnail

[개념정리] 2. Markov Decision Processes(MDPs)

본 글에서는 강화학습의 핵심인 Markov Decision Processes(MDPs)를 다룬다.

2021년 8월 21일
·
0개의 댓글
post-thumbnail

[개념정리] 1. Introduction to Reinforcement Learning

Introduction to Reinforcement Learning

2021년 8월 16일
·
0개의 댓글

First return, then explore (Go-Explore) 논문 요약

이 논문의 초기 버전은 Go-Explore: a New Approach for Hard-Exploration Problems으로, 2019년 1월 30일에 나왔다.

2021년 8월 12일
·
0개의 댓글

Never Give Up: LEARNING DIRECTED EXPLORATION STRATEGIES 논문 요약

Directed exploratory policy들을 학습함으로써 hard exploration 게임들을 해결하기 위한 강화 학습 agent를 제안한다.

2021년 8월 4일
·
0개의 댓글
post-thumbnail

Tianshou 사용법(2) - Basic concepts in Tianshou

Tianshou 는 강화학습 학습 절차를 다음과 같이 나눈다: Trainer, Collector, Policy, and Data Buffer. 일반적인 과정은 다음과 같다.좀 더 자세하게 표현하자면 다음과 같다. 여기서 Env 는 환경이고, Model 은 신경망이다.T

2021년 7월 27일
·
0개의 댓글

Tianshou 사용법(1) - Quick Start Tutorial(DQN)

강화학습은 여러 분야에서 많은 성공을 거뒀고, DQN은 그 첫번째 사례이다. 이번 튜토리얼에서는 Tianshou를 이용하여 DQN Agent로 Cartpole 환경을 차근차근 학습해볼것이다. hyper-parameter, network 등의 specification

2021년 7월 27일
·
0개의 댓글
post-thumbnail

강화학습 개념정리(4)

Intro to Policy Optimization

2021년 7월 19일
·
0개의 댓글
post-thumbnail

강화학습 개념정리(3) - 알고리즘 종류, on-policy, off-policy, Q러닝, Policy Gradient, Model-Free, Model-Based

미리 말하자면, 위 분류는 완벽하지 않다. RL의 특성 상 트리 구조로 엄밀하게 분류하기가 힘들기 때문이다. 예를들어 Policy Gradient 와 Value Function을 둘다 사용하는 DDPG, TD3, SAC는 세부적으로 다르게 작동하지만 트리구조 상에서는

2021년 7월 19일
·
0개의 댓글