시리즈

강화학습

1.강화학습 공부(1) - 개요

환경으로부터 보상을 받는! 그 보상을 가지고, 학습을 가는 것! 결국, 상황에 적합한 행동을 찾기까지는 수많은 행동이 필요하다.가정하고 있는 상황은, 1\. 학습 주체는 환경에 대해 모름 2\. 시행착오가 필요3\. 현재의 행동이 미래의 순차적인 보상에 영향을 준다

2025년 1월 8일

2.강화학습 (2) - multi-armed bandit 문제

매번 동일한 돈이 나오지는 않음. 어떤 기계는 더 많은 보상금을, 어떤 머신은 평균적으로 나오는! 우리는, 도박장에서 도박에 대한 정보가 정말 아무것도 없다.이때 어느 밴딩머신을 땡길 것인지는 우리에게 달려있다.우리가 하게 될 것은?랜덤하게 시도하여 탐색을 한다. ex

2025년 1월 8일

3.[강화학습 스터디] 1 Introduction to Reinforcement Learning

reward signal 정답이 알려주는 사람 없이, 에이전트가 리워드 신호만 받으면서 좋은 방법론을 찾아가는 것 ! ! ! !supervisor가 없이 ! ! ! == 자기주도학습 잘 하는 학생 feedback is delayed supervised learning에

2025년 2월 5일

4.[강화학습스터디] 2강 Markov Decision Process

MDP는 일종의 environment를 표현하는 방법! 대부분의 모든 RL problem은 MDP로 표현할 수 있다고 한다. 일단 MarKoV 특성예전의 것들은 현재랑 관계가 없다. state만 필요할 뿐, 이전 history는 필요가 없다.State Transiti

2025년 2월 7일

5.[강화학습 스터디] 5강 Model-Free Control

LLM agent 연구에 언젠간 활용하고 싶어서 열심히, 노력하고 있지만 쉽지는 않다. 저번주 스터디에 스터디원분이 구현을 하셔서 오신걸 보고! 깜짝~놀라버려성나도 한번 구현을 해봐야겠다고 생각했다! ! ! ! ! ! ! 그분이 공부하신 방법대로 한번 따라해봤다. (1

2025년 3월 2일

6.[강화학습 스터디] 5강 Model Free Control 구현 코드

결국 중요한 건, 어떻게 저렇게 0.9뒤에 곱해지는 애들이 어떻게 달라지는지이다.

2025년 3월 5일

7.[강화학습 스터디] 6강 Value Function Approximation + 구현코드

2025년 3월 24일

8.[강화학습 스터디] 3강 Planning by Dynamic Programming

prediction 인풋 : MDP와 Policy output : value function ! control 인풋 : MDP output : optimal value function과 optimal policy ![](https://velog.velcdn.co

2025년 2월 14일

9.[강화학습 스터디] 7강 Policy Gradient + 구현 코드

6강에 있는 내용들 그대로 이해하기 쉽게 조금만 바꿔서 해보았습니다!!!!! 5강에서 한번 개념 제대로 잡으니까, 그냥 지식 업데이트만 하면 되는 느낌이더라구용!!! 혹시 질문이 있다면,,,댓글을 남겨주세요!!

2025년 3월 24일

10.[강화학습 스터디] 8강 Integrating Learning and Planning(1) + 구현 코드(미로 탐험)

(요기 이 simulation based 부분은 아직 구현을 하지 못했고 강의를 끝까지는 못 들어성 다음 부분으로 넘겨보겠습니당...!) 그리고 저번까지는 계속해서 그냥 ppt에 나와있는 기본코드를 구현하는 것에 그쳤는데, 여기 나와있는 그 미로 탐험이 개인적으로 재미

2025년 3월 24일

11.A survey on model-based reinforcement learning

Therefore, applying RL algorithms with high sample complexity to real-world tasks is diﬃcult, where trial-and-error can be extremely expensive.→ RL알고리

2025년 5월 8일