# reinforcement learning

Multi-armed bandit problem - (2) coding
전편에 이어 multi-armed bandit을 Python으로 구현해보자.알고리즘은 greedy, $\\epsilon$-greedy, optimistic initial value 세 가지가 있었는데, greedy가 기본형이고 나머지 둘은 greedy의 단점을 보완하는
[Python] 체스 AI 만들기 0. 프로젝트 소개
프로젝트 소개 강화학습을 이용하여 체스 AI를 만들어 보려고 한다. 우선 AI를 학습시키기 위해서는 체스 판과 규칙들을 구현한 환경이 필요하다. openAI의 gym을 기반으로 한 패키지를 이용하면 이는 쉽게 해결이 되지만, 파이썬 연습도 하고 실제 체스 게임을 구현

Reinforcement Learning이란?
Supervised Learning처럼 학습에 있어서 데이터와 라벨이 주어지지 않고, 각 state에 해당하는 action에 reward를 두어 reward를 가장 높게 갖는 방향으로 학습하는 방식이다. 예를 들어, 자전거를 배울 때를 생각해보면, 오른쪽으로 넘어지려

On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting
On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting, NeurIPS 2022
출근 시간에서 보여지는 균형점 수렴
제약 조건(뒤의 일정에 차질이 생기는지 등)에 따라 계획하지 않고 Greedy Algorithm으로 진행해도 균형점에 향함.

[강화학습] Introduction to Reinforcement Learning
강화학습이 무엇인지에 대해 그 정의를 살펴보고 어디서 유래했는지 알아보는 챕터

[Computers and Electronics in Agriculture 2022] Reinforcement learning for crop management support: Review, prospects and challenges
이번에 소개드릴 논문은 Computers and Electornics in Agriculture에 몇 달 전 게제된 따끈따끈한 리뷰 논문입니다. <Reinforcement learning for crop management support: Review, pros

Reinforcement learning(강화학습)-MDP(Markov Decision Process)
※참고※ 이번 주제부터는 이전에 배운 개념들을 잘 익혀야 순조롭게 진행될 것입니다. 화이팅!🐱🏍

Machine Learning의 구분
supervised learning(지도학습) unsupervised learning(비지도학습) reinforcement learning(강화학습)

Reinforcement learning(강화학습)-Q-learning_01
오늘 살펴볼 것은 강화학습 이론과 Q-learning의 Greedy action이다.
Deep Sarsa
date: 2021-11-30 20:00:00table-based approach는 위 그림과 같이 trap이 움직이는 dynamic 환경에서는 state가 급격하게 증가하기 때문에 문제가 생긴다. 따라서 이를 해결하기 위해 neural network를 사용하는 방식을
Q-Learning (code)
layout: posttitle: Q-Learning (code)comments: truecategories: DataScience/Reinforcement Learningtags: q-learning, 큐러닝, Reinforcement Learning, 강화학습, r
SALSA (code)
date: 2021-10-18 22:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 SALSA 포스트를 읽어주세요.설명은 주석으로 해두
Value Iteration(code)
date: 2021-10-18 21:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다.\*\*\*이 코드를 이해하려면 앞선 value iteration 포스트를 읽어주세요.설
Policy Iteration(code)
date: 2021-10-18 19:00:00(https://github.com/rlcode/reinforcement-learning-kr-v2) 의 코드를 참고하였습니다이 코드를 이해하려면 앞선 policy iteration 포스트를 읽어주세요.설명은 주석으
Q-Learning(큐러닝)
date: 2021-10-18 18:00:00이전 포스트에 이어서 이번에는 q-learning을 해보겠다.q-learning은 SALSA 와 다르게 SALS만 하는것이다,왜 그러면 마지막 A를 뻈을까??2021-10-18-rlpost10-01.png왼쪽은 SALSA 오